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Előszó 


Ez a jegyzet a Debreceni Egyetemen informatikus és matematikus diákok 
számára tartott Neurális hálók tantárgyhoz készült. Lényegében az előadá- 
sok anyagát tartalmazza, de a gyakorlatok jelentős részét is lefedi. 


A jegyzet által tartalmazott anyag az alábbi (fejezetenként haladva). A 
Rosenblatt-féle perceptron; a többrétegű perceptron (Multi Layer Percept- 
ron, MLP); a radiális bázis függvények (Radial Basis Function, RBF); a tartó 
vektor gépek (Support Vector Machine, SVM). Az Appendix a matemati- 
kai hátteret, főleg az optimalizálási módszereket foglalja össze. Számos ábra 
és kidolgozott példa is segíti a megértést. A fejezetek végén több kitűzött 
feladat áll, amelyek megoldása, vagy megoldási útmutatója a jegyzet végén 
található. 


Az előadásaim megindulásuktól kezdve elsősorban Haykin átfogó, világ- 
szerte használt [18] könyvén alapulnak, így a jegyzet is ezt a művet köve- 
ti. Viszont az SVM oktatásában folyamatosan az elmélet megalkotójának, 
Vapniknak [49] monográfiáját követtem, így a jegyzet SVM fejezete is erre 
támaszkodik. Kisebb speciális részek tárgyalásához más könyvek is szüksé- 
gesek voltak, illetve pár esetben az eredeti cikkekhez kellett visszanyúlni. A 
matematikai háttér tárgyalása standard matematika és statisztika könyve- 
ken alapul, amelyek közül Fletcher optimalizációról szóló [14] könyvét kell 
kiemelni. A neurális hálózatok az utóbbi évtizedekben rendkívül gyorsan fej- 
lődő témakör, de a jegyzet keretei között csak a már letisztult, elfogadott 
módszerek tárgyalására van mód. 


A jegyzetben a numerikus példákat a Matlab programcsomag (Il. [29]) 
segítségével dolgoztam ki. Az SVM regresszióhoz használtam a libsvm prog- 
ram-könyvtárat (Il. [5] és [6]). A szövegszerkesztés nagy részét magam vé- 
geztem BRIpX-ben. Az ábrák többsége Matlab-bal készült, néhány pedig 
ETFX-ben. A ETFX-ben végzett munkában Tómács Tibor jelentősen kivette 
a részét. 
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Köszönetnyilvánítások. Hálás vagyok kollégámnak, Jeszenszky Péternek, 
hogy évekkel ezelőtt rábeszélt a Neurális hálók tantárgy elindítására. Több 
éven keresztül Ő vezette a tárgyhoz tartozó gyakorlatokat. Köszönet illeti 
a Debreceni Egyetem azon hallgatóit, akiknek a tantárgy iránti érdeklődése 
fenntartotta bennem is a lelkesedést. Az érdeklődés különösen a témaveze- 
tésemmel szakdolgozatot vagy diplomamunkát író diákok részéről nyilvánult 
meg. Ebben a tekintetben ki kell emelnem három volt diákomat. 

Horváth Roland matematikus hallgató , A neurális hálók alapjai és al- 
kalmazásai" címmel (lásd [21]), Szép Gábor matematikus hallgató pedig , A 
neurális hálók egy osztálya: az SVM" címmel (lásd [44]) írt diplomamunkát 
a témavezetésemmel. Mindkettőjüktől az volt a kérésem, hogy a dolgoza- 
tuk legyen alkalmas oktatási segédanyagnak is. Ennek megfelelően Horváth 
Roland a dolgozata első részében a perceptronról, az MLP-ről és az RBF- 
ről tartott előadásaim anyagát foglalta össze, Szép Gábor pedig az SVM-ről 
szólókat. Mivel az előadásaim anyaga napjainkban is tartalmazza ezeket a 
standard anyagrészeket, így a fenti két dolgozatból (a szerzők előzetes jóvá- 
hagyásával) több részletet alkalmasan átdolgozva és kibővítve, beillesztettem 
a jegyzetbe. Kovács György matematikus hallgató , A Support Vector Reg- 
resszió elmélete, implementációjának elemzése és alkalmazása" címmel (lásd 
[25]) szintén a témavezetésemmel írt diplomamunkát. Ez a munka már ku- 
tatói szintű részeket is tartalmaz. Kovács György ma már a kollégám, ebbe 
a jegyzetbe Ő ajánlotta fel az 5.8. Példát. A fentiekért ezúton fejezem ki 
köszönetemet Horváth Rolandnak, Szép Gábornak és Kovács Györgynek. 

Köszönet illeti a Debreceni Egyetem Alkalmazott Matematika és Valószí- 
nűségszámítás Tanszékének azon munkatársait, akik segítettek a kéziratban 
lévő nyomdahibákat felfedezni. Sok köszönet jár Tómács Tibornak a techni- 
kai szerkesztésért, Karácsony Zsoltnak pedig a lektorálásért. 


A szerző 


Debrecen, 2013. 
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Bevezetés 


Neurális hálózatokat széles körben alkalmaznak tudományos és műszaki fel- 
adatok megoldására. Többek között karakterfelismerésre, képfeldolgozásra, 
jelfeldolgozásra, adatbányászatra, bioinformatikai problémákra, méréstech- 
nikai és szabályozástechnikai feladatokra használnak különböző neurális há- 
lózatokat. Meg lehet velük oldani olyan összetett problémákat, amelyek visz- 
szavezethetők két alapvető feladatra: osztályozásra (azaz szeparálásra) és 
függvény közelítésre (azaz regresszió számításra). 

Ebben a műben mesterséges neurális hálózatokról lesz szó, de a ,mes- 
terséges" jelzőt csak akkor fogjuk kitenni, ha a természetes, azaz biológiai 
neurális hálózatoktól való megkülönböztetést hangsúlyozni kell. A mester- 
séges neurális hálózatok kialakítása valójában a biológiai neurális hálózatok 
tanulmányozására vezethető vissza. Ugyanis a biológiai rendszerek sok te- 
rületen rendkívül hatékonyan működnek. Például az emberi idegrendszer 
jeleket (kézírást), képeket (arcokat, embereket), valamint egyéb alakzatokat 
nagyon sikeresen ismer fel. Vagy gondolhatunk a denevérek kiváló tájékozó- 
dási képességére. 
reket alkotni. A biológiai rendszerek olyan sajátosságait vették alapul, mint 
a nagy számú, de egyenként kicsiny alapegységből való felépítés, valamint 
az egységek közötti sok kapcsolat, és nem utolsó sorban a tanulás képessé- 
ge. Valójában azonban az élő természetből csak bizonyos általános elveket 
sikerült ellesni, a ténylegesen megvalósított mesterséges neurális hálózatok 
nem rendelkeznek a biológiai rendszerek mélyebb tulajdonságaival. Egy hoz- 
závetőleges meghatározás lehet a következő. A mesterséges neurális hálózat 
az idegrendszer felépítése és működése analógiájára kialakított számítási me- 
chanizmus. Hiszen a fő cél nem elvi, hanem ténylegesen működő modell 
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létrehozása. Ezt pedig tipikusan valamilyen elektronikai eszközzel (általá- 
ban számítógéppel) és valamilyen tudományos eljárással (matematikai jelle- 
gű modellel) lehet elérni. 

Tehát a biológiai elvek (felépítési és működési elképzelések) alapján meg- 
alkottak bizonyos matematikai jellegű modelleket. Ezeket elméleti mate- 
matikai módszerekkel pontosították, alkalmazott matematikai (numerikus, 
operációkutatási, statisztikai) módszerekkel számításokra alkalmassá tették, 
majd számítógépen realizálták. Azonban a matematikai módszerek mellett 
sokszor heurisztikus meggondolásokra és számítógépes kísérletezésre is szük- 
ség van. 

Amikor valamilyen tudományos vagy műszaki feladatot akarunk meg- 
oldani, akkor bizonyos törvényszerűségekre, illetve modellekre szeretnénk 
támaszkodni. Ilyen ismert törvényszerűség pl. a tömegvonzás törvénye, a 
gáztörvények, az atomok felépítésének modellje és természetesen minden fi- 
zikai, kémiai, biológiai, . . . törvény és modell. Ezek bizonyos határok között 
jól írják le a jelenségeket. Ezek alapján tudjuk megérteni a jelenségeket, 
azok jellemzőit kiszámítani, és főleg berendezéseket, folyamatokat tervezni. 
Vannak azonban olyan esetek, amikor nincsenek használható modellek, nem 
ismertek a pontos törvényszerűségek, vagy ha igen, akkor azok (pl. bonyolult- 
ságuk miatt) számításokra nem alkalmasak. De vannak adataink (méréseink, 
megfigyeléseink). Ezek alapján pedig megpróbálunk mégis eredményt elérni. 

Egy neurális hálózatot érdemes úgy felfogni, hogy nem kívánja a jelen- 
séget modellezni, arra törvényszerűségeket megállapítani (legalábbis a ha- 
gyományos természettudományos, matematikai értelemben nem). Hanem a 
jelenséget fekete dobozként kezeli, csak a bemenő (input) és a kimenő (out- 
put) adatokat tekinti. Legyenek tehát a bemeneti adatok 

z(n) — (a1(n), ... , zm(n))T 
m-dimenziós vektorok, ahol n — 1,2,... az időpillanatokat jelenti. Itt és 
a továbbiakban a vektorokat oszlopvektornak fogjuk tekinteni, ezekből a 
transzponálás (jele " ) segítségével kapunk sorvektort. Az ismeretlen rendszer 
minden x(n)-hez megad egy d(n) kimeneti értéket (lásd 1.1. ábra). 

A jó neurális hálózat olyan, hogy ugyanarra az inputra hasonló outputot 
ad, mint a vizsgált jelenség. De a fekete dobozban működő mechanizmust 
nem tárja fel, maga a neurális hálózat pedig nem , hasonlít" a jelenségre. Ez a 
felfogás persze más területen sem ismeretlen, gondoljunk a nem-paraméteres 
statisztikai módszerekre. És ráadásul bizonyos problémákra nagyon hatékony 
neurális hálózatos megoldást lehet adni. Tehát a jelenségek fekete dobozként 
való kezelése a neurális hálózatoknak részben hátrányuk, de részben előnyük 
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is. Hiszen működésükhöz csak adatokra van szükség. (Természetesen a, je- 
lenség bizonyos fokú ismerete és némi tervezési tapasztalat nagyon hasznos 
jó neurális hálózat megalkotásához.) 


Input Output 






x1(n) 


xo(n) Ismeretlen 


rendszer 


1.1. ábra. A modellezendő rendszer 


A neurális hálózatok tudományának fejlődése nagyon tanulságos. Mi eb- 
ből csak néhány lépést sorolunk fel, a részletek megtalálhatóak pl. Haykin 
[18] átfogó művében. A kialakuláshoz szükséges volt az idegrendszer fel- 
építésének feltárása. Ezen a téren megemlítendő McCulloch és Pitts [30] 
neuron modellje, továbbá Hebb [19] tanulással kapcsolatos eredményei. Az 
idegrendszerrel kapcsolatos kutatások inspirálták a kibernetika (informatika) 
fejlődését is. 

A neurális hálózatok közismert kezdeti típusa az egyetlen neuronból 
(idegsejtből) álló perceptron volt, Rosenblatt [42]. A Rosenblatt-Novikoff- 
féle perceptron konvergencia tétel (lásd Novikoff [35]) azt állítja, hogy a per- 
ceptron képes elválasztani két lineárisan szeparálható halmazt. A következő 
lépés az Adaline megalkotása volt. Ez úgy tekinthető, mint egy lineáris függ- 
vény illesztésére alkalmas eszköz. Ennek tanítása a Widrow-Hoff-algoritmus 
[50], más néven a Least mean sguare eljárás. 

Kiderült azonban, hogy több neuront egy rétegbe rendezve sem oldható 
meg lineárisnál bonyolultabb feladat, lásd Minsky és Papert [32]. Bonyo- 
lultabb elrendezést pedig nem tudtak betanítani. Áttörést a többrétegű per- 
ceptron (Multi Layer Perceptron, MLP) tanítására szolgáló eljárás, a hiba 
visszaáramoltatása (hiba visszaterjesztése, error back-propagation) felfedezé- 
se hozott, lásd Rumelhart, Hinton, Williams [43]. Azóta a neurális hálózatok 
elmélete és alkalmazásai hatalmas fejlődésen mentek keresztül. 

Ebben a jegyzetben csak a neurális hálózatok bizonyos típusait mutatjuk 
be, a gazdag tárházba való további betekintésre ajánljuk Haykin [18] köny- 
vét. Haykin könyve általános szemléletű és átfogó alkotás, számos szakterü- 
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let művelői forgathatják haszonnal. Magyar nyelven elérhető Horváth Gábor 
és szerzőtársai [20] műve, amely elsősorban mérnöki szemlélettel rendelke- 
zőknek szól. Ebben a jegyzetben olyan modellekre koncentrálunk, amelyek 
általánosan használhatóak, ténylegesen megvalósíthatóak, valamint létezik 
elérhető számítógépes implementációjuk. 

A többrétegű perceptron (MLP) talán a legismertebb modell, a, legtipiku- 
sabb neurális hálózat. Rétegekbe rendezett perceptronokból áll. Előrecsatolt 
hálózat (feedforward network). Igen flexibilisen alakítható ki a struktúrája. 
Számos numerikus eljárással betanítható. Megoldja a szeparálás és az app- 
roximálás feladatát (nem csak lineáris esetben) és az ezekre alapozó számos 
gyakorlati problémát. Ezek miatt széles körben alkalmazott. 


A radiális alapfüggvényekből álló hálózat (Radial Basis Function, RBF) 
az MLP alternatívája (lásd [3]). Az RBF elméleti alapja a matematikai ana- 
lízisben igen fontos Tyihonov-féle regularizáció. Azaz a számos problémakör- 
ben jól használható büntető függvények segítségével ad használható eljárást. 
A megoldásban szereplő Radial Basis Function valójában egy magfüggvény. 
Az RBF mind a célját, mind a megoldás módját tekintve nagyon közel áll a 
nem-paraméteres statisztikai függvény-becslésekhez. 


Szintén statisztikai hátterű a tartó vektor gép (Support Vector Machine, 
SVM). Ez nem véletlen, hiszen megalkotója, Vapnik maga is statisztikusként 
indult. Az SVM bizonyos értelemben megoldja az optimális szeparálás és az 
optimális approximálás feladatát. Azonban az elméletileg optimális megoldás 
numerikus megtalálása nagy méretű feladatok esetén problémát okozhat. Az 
SVM elmélete szervesen kapcsolódik a statisztikus tanulás-elmélethez, lásd 
Vapnik [49]. 

A neurális hálózat alkalmazásának fő fázisai: (1) a modell megalkotása, 
(2) betanítása, (3) használata. A modellt a konkrét probléma, (pl. rendszám- 
felismerés, képfeldolgozás) mibenléte alapján választjuk az ismert modell 
osztályokból a saját tapasztalataink alapján. Ha pl. MLP-t használunk, ak- 
kor meg kell adnunk annak konkrét specifikációit is. Ezután a modellt be- 
tanítjuk, azaz a konkrét adatokhoz illesztjük. A betanított hálózatot gyak- 
ran tesztadatokon ellenőrizzük. Ha sikerült betanítani, akkor alkalmazhatjuk 
nem ismert adatokra. Ez pl. rendszám-felismerés esetén azt jelenti, hogy a 
műszer előtt elhaladó autók rendszámát outputként szolgáltatja a neurális 
hálózat. 

A neurális hálózatok tanítása alapvető fontosságú. Mi a tanítóval tör- 
ténő tanulással (ellenőrzött tanulás, felügyelt tanítás, supervised learning) 
foglalkozunk. Ez azt jelenti, hogy vannak tanító pontjaink (training points), 
azaz bizonyos a(1), . . . , ((N) input adatokhoz tudjuk a d(1), . . . , d(N) out- 
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put értékeket is. Ezek alapján illesztjük a modellt (ami azt jelenti, hogy 
megkeressük azon paraméter értékeket, amelyekre a neurális hálózat egy- 
egy inputra hasonló outputot ad, mint amilyet a tanító pontok alapján az 
általunk megfigyelt jelenség ad). Ha sikerült a hálózatot jól betanítani, akkor 
használjuk olyan inputra, amire az outputot nem tudjuk. Éppen a hálózat 
által adott outputot fogjuk igaznak tekinteni. 


Érdemes elidőzni a szóhasználatnál, különösen a tanulás-tanítás kettős- 
sége miatt. A jelenségről az (x(1), d(1)), . . . , (z(N), d(1)) adatok állnak ren- 
delkezésre, azaz a jelenség az n időpillanatban az x(n) inputra a d(n) outpu- 
tot szolgáltatta. Ezeket az input-output adatokat a statisztikában mintának 
nevezik, a természettudományokban ezek a mérési, megfigyelési eredmények. 
A neurális hálózatok angol nyelvű irodalmában ezt , training set"-nek neve- 
zik, amit egyaránt fordíthatunk tanító halmaznak, ill. tanuló halmaznak. A 
hálózat szempontjából tekinthetjük úgy, hogy a hálózat tanul a tananyag 
alapján. Viszont a tanulás mögött mindig van egy számítási mechanizmus, 
amit az ember alkotott. Így a tervezői, felhasználói aktivitást hangsúlyozan- 
dó, a jegyzetben a , tanítás" és a , tanító pontok" elnevezés mellett marad- 
tunk. 


A fentiek alapján a tanítás (tanulás) tehát nem valamilyen természeti 
jelenség, hanem kemény numerikus feladat, amit számítógépen kell realizál- 
ni. Tehát a tanító (tanuló) algoritmusok az ismert numerikus matematikai 
módszerek (pl. gradiens módszer, Newton-módszer) szofisztikált megvaló- 
sításai, amik szoftveres implementációi is komoly tapasztalatot igényelnek. 
A neurális hálózatokkal megoldható feladatok jelentős része felmerült mint 
klasszikus matematikai feladat (pl. a numerikus matematika, az operációku- 
tatás, ill. a statisztika témakörében), azonban a neurális hálózatok módsze- 
rével sok probléma jobban kezelhető, mint ha csak szigorúan a matematika 
eszközeire támaszkodnánk. 


A jelen műben a neurális hálózatok tudományának egy közép szintjét 
célozzuk meg. Az egyes modelleket részletesen és pontosan megadjuk. Meg- 
világítjuk a matematikai hátteret, a főbb tulajdonságokat leírjuk. Elemezzük 
a betanításhoz szükséges numerikus eljárásokat. Konkrét kidolgozott példá- 
kat is nyújtunk. Végül feladatokat adunk (megoldással vagy útmutatóval). 


Az igazán mély matematikai elemzés azonban kívül esik jegyzetünkön. Az 
általunk bemutatott modellek viselkedésének leírása a napjainkban gyorsan 
fejlődő statisztikus tanulási elmélet témája, ezzel kapcsolatban csak utalunk 
Vapnik [49], Devroye, Györfi, Lugossy [28] és Hastie, Tibshirani, Friedman 
[17] könyvekre. A főbb numerikus módszereket megadjuk, ezek hátterét is 
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leírjuk az Appendixben. A numerikus módszerek tulajdonságait nincs lehe- 
tőség elemeznünk, csak utalunk Fletcher [14] könyvére. 

A jegyzetben talált leírás elegendő lenne neurális hálózatok egyszerű szá- 
mítógépes programjainak megírására. Azonban igazán jó implementációhoz 
további ismeretek szükségesek (lásd [16]). Valójában léteznek és elérhetőek 
alkalmas programok és programcsomagok, ilyen pl. a Matlab és az R. (lásd 
[29], ill. [45]; a programok leírásáról lásd pl. [15], ill. 19]). Ezen programok 
alkalmazása konkrét adatokra nagyon tanulságos. A jelen jegyzet numerikus 
példái is Matlab-bal készültek (kivéve az 5.8. Példát, amely R-ben). 

A jegyzet fejezetei a következőket tárgyalják: perceptron, MLP, RBF, 
SVM, illetve az Appendixben a matematikai háttér. Helyhiány miatt számos 
hálózat típus kimaradt (ezekről lásd [18]), így nem szerepelnek az önszervező 
hálózatok (pl. a Kohonen-háló [24]), és kimaradt a nem-ellenőrzött tanulás 
teljes elmélete is. 


2. fejezet 


A perceptron 


2.1. A neuron sémája 


Ebben a fejezetben elsősorban Haykin [18] könyvére támaszkodva ismertet- 
jük a perceptront. 

Induljunk ki abból, hogy adataink (méréseink, megfigyeléseink) vannak 
egy jelenségről. Legyenek a bemeneti adatok x(n) — (x1(n), . . . , mm(n))! 
m-dimenziós vektorok, ahol n — 1,2,... az időpillanatokat jelenti. A szá- 
munkra ismeretlen rendszer minden x(n)-hez megad egy d(n) kimeneti érté- 
ket. Az egyszerű esetekben d(n) skalár. (Itt és a továbbiakban a, vektorokat 
oszlopvektornak fogjuk tekinteni, ezekből a transzponálás (jele ! ) segítségé- 
vel kapunk sorvektort.) A célunk az, hogy az ismeretlen rendszert az input 
és output adatok alapján leírjuk egy olyan modellel, amely majd olyan input 
adatokra, amelyekre vonatkozó outputot nem ismerjük, megadja (legalábbis 
közelítőleg) az outputot. Például egy betanított karakter felismerő program 
egy kamera felvételeiből tudja azonosítani a megfigyelt jeleket. 

A neurális hálózat nem más, mint egymással összekötött neuronok összes- 
sége. A neuron (idegsejt) egy információ feldolgozó egység, a neurális hálózat 
alapegysége. A legegyszerűbb neurális hálózat egyetlen neuronból áll. 

A 2.1. ábrán látható egy neuron, a perceptron általános sémája. Ennek 
részei az alábbiak. 

(1) Bemenet (input). Az x(n) — (x1(n), . . . , tm(n)) " ismert m-dimenzi- 
ós vektor a bemenet. Azaz az n-edik időpontban érkezik m számból álló 
bemenő jel. Ezek a számok számunkra ismertek (mérhető, megfigyelhető 
értékek). Minden n — 1, 2, . . . , N időpontban érkezik egy bemenő jel. 

(2) Súlyok (synaptic weight). Az igazi wa, . . . , um súlyok nem ismertek. 
Éppen ezek meghatározása a feladat. A w1i(n), . . . , vm(n) mennyiségek az n- 
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edik időpillanatban használt súlyok. Ezek a valódi súlyok n-edik közelítései. 
Ezeket a közelítéseket lépésenként finomítjuk. A w — (wa, . . . , vm)! vektor 
az igazi, w(n) — (wi(n), . . . , vm(n)) ! pedig a közelítő súlyvektor. 

(3) Torzítás (bias). A b torzítás igazi értéke szintén nem ismert. Ennek 
az n-edik közelítését jelöli b(n). A torzítás meghatározása is cél. (Általában 
b skalár mennyiség. ) 

(4) Összegző csomópont (summing junction). Ez a bemenet adatainak 
alábbi súlyozott összegét képezi: 


v(n) — b(n) - Ké wi(n)x:(n). (2.1) 


(5) Aktivációs, más szóval transzformációs vagy egyszerűen transzfer 
függvény (activation function, transfer function). Ez a problémának meg- 
felelő o függvény. Az előző v(n) összegzett értéket alakítja át, értéke pedig 
a feladat szempontjából alkalmas intervallumba esik. Az alkalmas transzfer 
függvényt nekünk magunknak kell megadnunk. 


(6) Kimenet (output). Ez a neuron által a bemeneti xr(n) értékhez rendelt 
érték. Ez nem más, mint y(n) — p(v(n)). 





























Bemenet Súlyok Összegző Aktivációs Kimenet 





csomópont függvény 


2.1. ábra. A perceptron felépítése 


A jelölés egyszerűsítése érdekében ki szoktuk egészíteni a bemenő jelek 
és a súlyok vektorát egy nulladik koordinátával, konkrétan xo(n) — 1 és 
wo(n) — b(n) értékekkel. Tehát a b(n) torzítást is súlyként kezeljük. Mind a 
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bemeneti, mind a súlyvektorból (m--1)-dimenziós lesz. Vektoros alakban: 


xo(n) b(n) wo(n) 
zös x1(nm) fi x1(n) ie wi1(n) fi wi1(n) 


(Ez nyilván visszaélés az xr(n) és w(n) jelöléssel.) Ezzel a jelöléssel: 


v(n) — An wi(n)x:(n) — w(n) " a(n), (2.2) 


továbbá 
y(n) — e(v(n)) — 93 mlm] atm — o(w(n)" z(n)). 
1-0 


Ezt a kissé módosított sémát a 2.2. ábra szemlélteti. 

















2.2. ábra. A módosított perceptron 


A neurális hálózatok használatának fő szakaszai: a konkrét hálózat séma 
megadása, a hálózat betanítása, valamint a hálózat használata. Tegyük most 
fel, hogy egy konkrét jelenség modellezését perceptronnal kíséreljük meg, 
amihez kiválasztunk egy aktivációs függvényt. Ezzel a sémát meg is adtuk. 
Szükségesek olyan adatok, amelyek esetén ismerjük az xr(n) input vektorokat 
és a hozzájuk tartozó d(n) kimeneti értékeket. Ezek a tanító pontok (training 
point). A perceptron által az rx(n) input vektorhoz kiszámolt y(n) output 
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értékeket hasonlítsuk össze a tényleges d(n)-ekkel. Ez a hálózat (négyzetes) 
hibája: 
£(n) — (d(n) — y(n))! . 


A cél ezt a hibát minimalizálni. Ezt a súlyok változtatásával tudjuk elérni. 
Ezt a folyamatot nevezzük a hálózat tanításának (tanulás, training). Ha 
sikerül a hálózatot betanítani, azaz a hálózatunk a tanító pontok esetén 
(megközelítőleg) , helyes" értékeket szolgáltat, akkor kezdődhet a használata. 
Ez azt jelenti, hogy olyan input adatokra alkalmazzuk, amelyekre az output 
ismeretlen. Éppen a hálózat által szolgáltatott output értékeket fogadjuk 
el igaz értékeknek. Természetesen nincs arra garancia, hogy ezek mindig a 
valóságos értékekkel egyeznek meg. Megjegyezzük, hogy a betanított hálózat 
működésének ellenőrzése gyakran tesztadatokon történik. 

Látható, hogy az igazi feladat a modell megadása és betanítása, a beta- 
nított modell alkalmazása általában rutinszerű. 


2.2. Aktivációs függvények 


Leggyakrabban olyan aktivációs függvényeket használunk, amelyek monoton 
növekvőek, jobbról folytonosak, határértékük a —oc0-ben 0, a, 4-oo-ben pedig 
1. Az ilyen e tekinthető mint egy £ valószínűségi változó p(r) — P(E £ 1) 
eloszlásfüggvénye. (Balról folytonosság esetén pedig p(x) — P(£ c r) lenne.) 
Leggyakrabban az aktivációs függvények szigmoid, azaz 5 alakú függvények 
(pl. logisztikus, tangens hiperbolikus, . . ). 


1. Logisztikus függvény: 


1 
. 1-4 exp(—ag) " 





plz) TER, 

ahol a 5 0 konstans. Bizonyos művek csak a logisztikus függvényt értik 
szigmoid függvény alatt. 

Erre a függvényre nyilván p(0) — 1/2, p(.) növekvő, (—oo) — 0, 
p(o0) — 1. A deriváltja pedig 


aexp(—ar) 


la ÉGEZETETOJBi 





Innen p"(0) — a/4, azaz nagyobb a érték esetén o meredekebb a 0 kö- 
zelében. A 2.3. ábrán a — 1 esetén ábrázoltuk a logisztikus függvényt. 
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2.3. ábra. A logisztikus függvény a — 1 esetén 


2. Küszöb függvény (threshold function, Heaviside function, hard limit): 


ő har5 0, 
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2.4. ábra. A küszöb függvény 


3. Szakaszonként lineáris függvény (telítéses lineáris) : 


0, ha x a —0.5, 
p(z)— 4 T-10.5, ha —0.5 € x c 0.5, 
1, hag 2 0.5. 


Tehát o a [—0.5, 0.5] intervallumon egyenletes eloszlásfüggvény. 








2.5. ábra. Szakaszonként lineáris függvény 


A fenti függvényeket néha úgy módosítják, hogy a —o00-ben a határér- 
tékük —1 legyen. Ilyen tulajdonságú a tangens hiperbolikus és az előjel 
függvény is. 
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4. Tangens hiperbolikus függvény: 


2 





p(x) 1 — tanh(T). 


"1 exp(—22) 








-1 
—8 B 0 1 2 3 





2.6. ábra. A tangens hiperbolikus függvény 


5. Szignum függvény (speciális küszöb függvény): 


—1, hag C0, 
p(x) — 0, haz — 0, 
1, haz 50. 
Tass áee ááá ETT 
[0 . 
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2.7. ábra. A szignum függvény 


A logisztikus, a küszöb és a szakaszonként lineáris aktivációs függvények 
tekinthetőek eloszlásfüggvényeknek is. A fenti függvényeket szokták telítődő 
(saturated) függvényeknek is nevezni. 

Megjegyezzük továbbá, hogy bizonyos esetekben a fentiektől eltérő tulaj- 
donságú transzfer függvényeket is használnak, pl. a p(r) — z, x € R, lineáris 
függvényt. 
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2.3. A perceptron tanítása 


Perceptronnal megoldható a lineáris szeparálás feladata. Tegyük fel, hogy a 
megfigyeléseink két csoportból származnak. A két csoport A1 és A2. Tegyük 
fel továbbá, hogy a két csoport lineárisan szeparálható, azaz elválasztható 
egy hipersíkkal. Ezen hipersík megtalálása a cél. A perceptron tehát a sta- 
tisztikában jól ismert lineáris szeparálást hajtja végre. Kétdimenzióban a 
helyzetet a 2.8. ábra szemlélteti. 


Lineáris szeparálás 











2.8. ábra. Lineáris szeparálás 


Természetesen a minta szétválasztása nem csak a síkban működik. Általá- 
ban a perceptron egy k-dimenziós térben, (k — 1)-dimenziós hipersíkkal való 
szeparálást hajt végre. 

Tekintsük a tanító pontokat, azaz azokat a pontokat, amelyekről tudjuk, 
hogy melyik osztályba tartoznak. A hovatartozás alapján rendeljünk ezen 
pontokhoz 1-et, vagy —1-et. Ezek lesznek azok az igazi output értékek, ami- 
hez majd hasonlítani tudjuk a perceptronnak a tanító input pontokra adott 
válaszát. 

Először azt mutatjuk meg, hogy elegendő az origón átmenő elválasztó 
hipersíkokkal foglalkozni. Jelölje átmenetileg u az input vektort. Ekkor u € 
E€ A1U 42. Legyen a az elválasztó hipersík rögzített pontjának helyvektora, 
t pedig az elválasztó hipersík normálvektora (mely A1 felé néz). u € Ai 
akkor és csakis akkor teljesül, ha (u — a) hegyesszöget zár be t-vel, így 
(u— a)! t 5 0, azaz 


u1t—alt50. 
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Most egészítsük ki az input vektort egy 1-essel, a sík normálvektorát pedig 
T 
—a t-vel: 


1 —alt 
UI ti 
s 4 ; w — 5 
Um tm 
ahol u1,..., um az u, míg ti1,...,.tm a t vektor koordinátái. Az ilyen mó- 


don kapott x lesz a perceptron bemeneti értéke, a w pedig a súlyvektora. 
Látható, hogy w első komponense a torzítással van összefüggésben. Tehát 
ezen transzformáció után az 1-gyel magasabb dimenziós térben kell az origón 
átmenő hipersíkot keresni, hiszen 


u € Ah Sr w50, u € Ah Sr w c 0. (2.3) 


Nyilván ebben a térben w lesz az elválasztó hipersík normálvektora (amely 
Au felé néz). 

Még kérdés az is, hogy ha a magasabb dimenziós mintatérben megtalál- 
tuk az elválasztó hipersíkot, akkor az eredeti problémában is megkapjuk-e 
azt. A válasz igen. Hiszen w utolsó m koordinátája éppen a t vektort adja. 
Az első koordinátája viszont nem határozza meg a-t. De magát a hipersíkot 
igen, mert ha alt — adjt, akkor (a1 — a2)!t — 0, azaz (ai — a2) merő- 
leges t-re, így mind ai, mind az ugyanannak a t-re merőleges hipersíknak 
helyvektora. 

Térjünk rá a perceptron tanítására. Az előzőek alapján kiegészített vek- 
torokkal dolgozunk, azaz az origón átmenő hipersíkot keresünk. Jelölje w az 
igazi (és az origón átmenő) elválasztó hipersík normálvektorát. w megtalá- 
lása a cél az x(1), x(2), . . . , r(N) tanító pontok alapján. A tanító pontokról 
tudjuk, hogy mely osztályba tartoznak. Egyesével dolgozzuk fel a tanító 
pontokat. Induljunk ki a w(1) kezdeti értékből. (w(1) tipikus választása a 
nullvektor.) Az argumentum itt azt mutatja, hogy hányadik pont feldolgo- 
zásánál tartunk. Tegyük fel, hogy már feldolgoztunk n — 1 tanító pontot. 
Adjuk a perceptron bemenetére az x(n) tanító pontot. Ekkor három eset 
állhat fenn: 


— Ha a pont az aktuális (azaz w(n) normálvektorú) hipersík jó oldalán 
van, akkor nem változtatjuk meg az aktuális szeparáló hipersíkot. Te- 
hát, ha w(n) !" r(n) 5 0 és x(n) € Ai, vagy pedig ha w(n)!r(n) c 0 
és x(n) E A2, akkor 

w(n 3-1) — w(n). 
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— Ha w(n)" x(n) £ 0, de x(n) E Ai, akkor w(n)-et x(n) irányába , for- 
gatjuk": 
wln 4 1) — w(n) 4 mln)em), 


ahol n(n) 5 0. 


— Ha w(n)!x(n) 5 0, de x(n) E A2, akkor w(n)-et xr(n)-től ellenkező 
irányba , forgatjuk": 


w(n 41) — w(n) — n(n)a(n). 








valódi elválasztó sí N 





2.9. ábra. Kétféle korrekciós pont a perceptron tanítá- 
sánál 


Azaz, ha a vizsgált tanító pont az aktuális hipersík rossz oldalán van, akkor a 
hipersíkot alkalmas irányba forgatjuk. Az utóbbi két esetben x(n)-et korrek- 
ciós pontnak nevezzük. A 2.9. ábra mutatja a kétféle korrekciós pontot. n(n) 
jelöli az n-edik lépés korrekciós tényezőjét, más szóval tanulási paraméterét 
(learning rate). n(n) 5 0 skalár. 

A tanulás úgy folyik, hogy a tanító pontokat többször átáramoltatjuk. 
Az összes tanító pont egyszeri átáramoltatását egy epochnak nevezzük. Ha 
valamelyik epochon belül már nem találunk korrekciós pontot, akkor az ak- 
tuális hipersík helyesen szeparál, tehát a tanítást befejezzük. 

Most belátjuk, hogy realisztikus feltételek fennállása esetén korlátos sok 
lépés után nem marad korrekciós pont, azaz leáll az eljárás. 
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Legyen minden n € N esetén a korrekciós tényező ugyanaz a konstans 
nm) —n: 0. 
Tegyük fel továbbá, hogy a tanító pontok halmaza korlátos, azaz 
Ir(mIP £ R c co, minden n-re, 
és hogy a két halmaz pozitív margóval elválasztható: 
[lw!a(n) Ixő50. 


(Ha w egységvektor, akkor fenti feltétel legalább ő nagyságú margót követel 
meg, azaz ó-nál közelebb nem lehet tanító pont az elválasztó hipersíkhoz.) 
Ebben a bizonyításban legyen sgn(z) — 1, ha x 5 0, és sgn(x) — -—1, ha 
x A 0. Ekkor korrekciós pontok esetén 


Iw(n- DIP — Ilo(n) — sgnífw(n) " en) jme(miP? — 
— ori - lle(mI? — 2sgn(w(n) "z(mmw(n) "z(n) s 
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s Iw(miP milz(mIiP s... c 


c Iwo) am (Ilz(DIl - - - - — Ilz(miP) c Ilw(DIP--mnkR. (2.4) 
Másrészt 


w"w(n-k1) — wT [uw(n) — sgnfw(n) Ta )z(n)] és 


— w! w(n) —nsgníw(n) " (nd hw! a(n) 3... 3 w! w(1) 4 nőn. 


—n]lw! a(n)2nő 


Elég nagy n esetén w! w(1) 4 nön pozitív lesz. Felhasználva az la!b] c 
2 IlalllIbIl Cauchy-egyenlőtlenséget, a fenti egyenlőtlenségből azt kapjuk, 


hogy 


lw(nF 1) wl? , (ww(1) 4 nnő 


lw(n-k DIP 2 





ilwi[? ilwi[? 


Ezt a (2.4) egyenlőtlenséggel összevetve: 


(w!" w(1) 4 nnő)? 
ilw]J2 





Io(DIP a néR 2 llolrn 4 DIP 2 (2.5) 
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Ezen egyenlőtlenség bal oldala n-ben elsőfokú, jobb oldala pedig másodfokú. 
Ez nem állhat fenn végtelen sok n értékre. Tehát csak véges számú korrekciós 
pont lehet. A többiek már nem változtatnak a szeparáló hipersíkon. Ez azt 
jelenti, hogy a tanító pontokat többször átáramoltatva a hálózaton, egy idő 
után nincs több korrekció. Ezzel beláttuk a következő (Rosenblatt és Novikoff 
nevéhez köthető) tételt. 


2.1. Tétel (Perceptron konvergencia tétel, statisztikai tétel a lineáris sze- 
parálásról). Tegyük fel, hogy Ai és Az úgy szeparálható lineárisan, hogy 
well Z 5 5 0 és IIz(mIP £ R c co teljesül minden tanító pontra. 
Legyen a tanulási paraméter n 5 0 állandó. Ekkor a perceptron algoritmusa 
véges sok lépésben véget ér a tanító pontokat helyesen szeparáló hipersíknál. 


Legyen a kiinduló állapotban w(1) — 0. Ekkor a (2.5) képlet alapján 


a ol? 
Fetare 92 98 


Tehát ennél több korrekciós pontot nem találunk (még akkor sem, ha a már 
vizsgált tanító pontokat újra inputként használjuk akár többször is). Tehát 
legfeljebb ennyi lépés után minden tanító pont helyesen van elválasztva. 


2.4. A perceptron algoritmusának egy változata 


Ebben a részben [10] alapján ismertetjük a perceptron algoritmus egy vál- 
tozatát. Ebben a változatban nem szükséges a feladatot az origón átmenő 
hipersíkra átfogalmazni. Csupán az itt is érvényes perceptron konvergen- 
cia tétel bizonyításában merül fel az eggyel magasabb dimenziós feladattá 
alakítás. Tehát az elválasztó hipersík egyenlete 


w!ar- b. 
re A S wrib50, xz E 4 S w!xribcO0. 
Legyen ebben a szakaszban 
SET et EL 2 NI 
a tanító pontok halmaza, ahol y; — 1, ha x; € Ai és yy — —1, ha x; € A2. 


Tegyük fel, hogy Ai és A2 lineárisan szeparálható. Legyen adott azn 5 0 
tanulási paraméter. Ekkor a perceptron tanítási algoritmusa a következő. 
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wo :— 0; bo — 0; k — 0 
R :— maxicign Ila: 
repeat 
fori—1l1toN 
if vi(wj xi - bk) £ 0 then 
Wki1 — Wk TF NYTi 
bk41 :— bk — nyiR? 
k:— k-7-1 
end if 





end for 
until egy teljes for ciklus alatt nincs korrekció 
return k, wk, bk 


Itt k a szükséges korrekciók száma. 

Láthatjuk, hogy helyes osztályozás esetén y;(w! ax; -- b) 5 0. 
2.2. Tétel (Rosenblatt-Novikoff). Legyen S tanító pontok egy nem-triviális 
(azaz Az A 0, A2 A 0), hipersíkkal elválasztható halmaza. Legyen 


R— max lIz;]I. 
1£i£N 


Tegyük fel, hogy létezik egy wopt vektor, melyre Ilwoptll — 1 és egy bopt skalár, 


hogy 
vi(wiugi tb) 2Yy50 (2.6) 


minden1 lis N esetén. Ekkor a, fenti perceptron algoritmus legfeljebb 


( 
A 
korrekciós lépés után leáll a két halmazt helyesen szeparáló hipersíknál. 


Bizonyítás. Egészítsük ki az input vektorokat egy extra koordinátával, mely- 
nek értéke R legyen. Azaz legyen az új vektor Tf; — (a , R)". A súlyvektort 
is egészítsük ki, legyen az új vektor fö; — (w/ , b:/R)" . A $opt vektor defi- 
níciója hasonló. Az algoritmus o — 0-ból indul. Legyen í4.-1 a t — 1-edik 
korrekció után a súlyvektor. t-edik korrekció akkor szükséges, ha 


vö 12 — ui(wh 1 bi) £ 0, (2.7) 


azaz (xi, yi) € S olyan pont, melyet 4 1 — (w 1,br-1/R)" helytelenül 
osztályoz. A súlyvektor aktualizálása az alábbi 





ív — (w; , b-/R) e (we 1,b-1/R)" nyila] , R)" — 4, 1-4 nyiT:. (2.8) 
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Itt kihasználtuk, hogy 
b:/ R — b:-1/R- nyR, 

mivel 

be — bin 1-4 nyiRÓ. 
A (2.8) és (2.6) miatt teljesülő 

b ÜDopt — Ő; 1 Dopt E NYIZI opt 2 Dr 1 Dopt FM 

számolásból indukcióval adódik, hogy 

b. opt 2 1. (2.9) 
Hasonlóan kapjuk (2.7) és (2.8) alapján (és y?2 — 1-et figyelembe véve), hogy 


Más? — Mári 2 ői PI 
c ása Vllé al? 
c Náscal2 kr? (Ila? R?) 
2 áss alI2 - 2? R2. 


Ebből indukcióval következik, hogy 
lás? 2 22. (2.10) 
A fenti (2.9) és (2.10) egyenlőtlenségből és a Cauchy-egyenlőtlenségből adó- 


dik, hogy 
höopillv2tnR 2 áopelllázlI 2 64 €öopt 2 tm, 


RN ok 2RV 
(22(7) léoptl[? £ ő) j 
0 AT 


Itt kihasználtuk, hogy [bon] £ R a tanító pontok nem-triviális szeparálása 
esetén, amiből 


amiből 











Iédopt s Iwopt I - 1 si 2. 





28 2. fejezet. A perceptron 





2.5. A perceptron algoritmusának duális alakja 


Ebben a részben [10] alapján ismertetjük a perceptron algoritmus duális 
alakját. Látható, hogy a perceptron esetén a kapott elválasztó hipersík nor- 


málvektora 
N 
w y AY ti 
i—1 


alakú lesz (legalábbis nulla kezdőérték esetén). Tehát az elválasztó hipersík 
egyenlete 


N mi N 
w! r-4b— (5 ema) z1-4b-) agyra b 


1-1 1-1 


alakú lesz. Ez az alak két szempontból is előremutató. Egyrészt láthatjuk, 
hogy itt (és az alábbi algoritmusban is) nem maguk a vektorok, hanem csak 
azok belső szorzatai szerepelnek. A belső szorzatokat pedig majd az SVM 
esetén magfüggvényekkel fogjuk helyettesíteni abból a, célból, hogy a nem 
lineáris szeparálás feladatát is meg tudjuk oldani. Másrészt az SVM esetén 
fogjuk látni, hogy a duális alak vezet végrehajtható számolási eljáráshoz. 

Tekintsük most a perceptron duális alakjának algoritmusát. Jelölje a az 
a;-kből álló vektort. Legyen az ) tanulási paraméter 1. 


a :— 0;b:—0 
R :— MAaX1cicKN I] 
repeat 


fori—ltoN 
if JER agyjzj xi 3b) CO then 
az; — az;t1l1 
b — b 4 v;R? 
end if 
end for 
until egy teljes for ciklus alatt nincs korrekció 
return a, b 


2.6. Lineáris regresszió 


Illesszünk r!w -- b alakú (lineáris) függvényt mért adatokra. A jelölések 
egyszerűsítése érdekében változtassuk meg a jelöléseinket a szokásos módon. 
Tehát legyen az új r vektor az eredetitől eggyel magasabb dimenziós úgy, 
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hogy a meglévő koordináták elé mindig egy 1-est írunk. Hasonlóan egészít- 
sük ki w-t úgy, hogy a meglévő koordináták elé b-t írunk. Ezzel a keresett 
függvény alakja: 


f(2) —w! ax. 


Tegyük fel, hogy (x(1), d(1)), . . . , (z(N), d(NN)) a megfigyeléseink, ahol 
d(i) — f(x(i)). Rendezzük az x(i)! sorvektorokat egymás alá, így kapjuk 
az X mátrixot. A d(i) számokból pedig alkossuk meg a d vektort. A szoká- 
sos legkisebb négyzetes módszer szerint az ismeretlen w együttható vektor 


becslését a 
N 


2 (wa) — d(i))? — IlXw — di 


kifejezés w szerinti minimumhelyeként kapjuk meg. Ez tehát a lineáris mo- 
dell (lásd Appendix), ebben a ív becslést az 


XIXw-XId (2.11) 
normálegyenlet megoldásaként nyerjük. Invertálható esetben ebből 4 a 
6—-(XIXx)IxId 
képlet alapján adódik. Az invertálási problémák elkerülésére a 
4—-(XIX3AI)D1XId 


képletet alkalmazhatjuk, ahol / egységmátrix, A pedig pozitív szám. Ezt 
nevezik ridge regressziónak 

A fenti feladat megoldására Widrow és Hoff 1960-ban (lásd [50]) rekur- 
zív eljárást javasolt. Ez a Least-Mean-Sguare (LMS) módszer, más szóval a 
Widrow-Hoff-algoritmus. Ez valójában a nevezetes Adaline, azaz az adap- 
tive linear element, amelyet most ismertetünk. Az előző (2.11) módszer (azaz 
a lineáris legkisebb négyzetek módszere) esetén az első n megfigyelés (adat, 
tanító pont) által adott információt használtuk. Most viszont nem az n-edik 
megfigyelésig terjedő összes (azaz n db) eltérés alapján, hanem csupán az 
n-edik (azaz 1 db) eltérés alapján aktualizáljuk az előző becslést. 

Tehát az n-edik eltérés: 
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Innen Je(n) 
oj. 
tehát JÉG) 
STO — —e(n)ax(n). 


Tehát a gradiens vektor becslése: 


9(n) — —eln)z(n). 
Mivel a gradiens módszer szerint a negatív gradiens irányába kell lépnünk, 
kapjuk a következőt: 

íw(n 1-1) — ú6(n) 4 neln)a(n). (2.12) 


Ez tehát az LMS (Least-Mean-Sguare) algoritmus szerinti aktualizálása a w 
együttható vektor íw(n) közelítésének. Itt n 5 0 tanulási paraméter. 


2.7. Feladatok 


1. Vizsgáljuk a megadott aktivációs függvények menetét! Adjunk meg to- 
vábbi aktivációs függvényeket! Adjuk meg a szereplő p aktivációs függ- 
vény limz. 5 co p(r) — 0, valamint lim;. ; oo (r) — —1 feltételt teljesítő 
változatát is! 


2. Írjunk programot a perceptron tanítására! 
3. Írjunk pszeudokódot a, Least-Mean-Sguare algoritmusra! 


4. Legyen 2 értéke 1, ill. 0 aszerint, hogy z igaz, vagy hamis. Hasonlóan 
y-ra. Adjuk meg ezekkel a változókkal a, logikai ÉS, VAGY, továbbá a, 
KIZÁRÓ VAGY (azaz XOR) művelettábláját. Ábrázoljuk a lehetséges 
(r,y) pontokat a koordináta rendszerben. Lássuk be, hogy az ÉS, va- 
lamint a VAGY esetén lineárisan szeparálható két halmazt kapunk, de 
XOR esetén nem. 


5. A 2.2. Tétel bizonyításának befejező lépéséhez lássuk be, hogy Ibopt] £ R. 


3. fejezet 


A többrétegű perceptron 


3.1. A többrétegű perceptron felépítése 


Ebben a fejezetben elsősorban Haykin [18] könyvére támaszkodva ismer- 
tetjük a többrétegű perceptront. A lineáris szeparálás feladata elvégezhető 
egyetlen perceptronnal. Viszont a gyakorlatban legtöbbször nem lineárisan 
szeparálható halmazokkal találkozunk. A 3.1. ábrán látható két olyan hal- 
maz, amelyek nem szeparálhatóak lineárisan. 





A 


3.1. ábra. Lineárisan nem szeparálható halmazok 


A lineárisan nem szeparálható halmazok szétválasztása megoldható többré- 
tegű perceptronnal (Multi Layer Perceptron, MLP). 

A többrétegű perceptron a legismertebb, mondhatni a legtipikusabb ne- 
urális hálózat. Ebben nem egyszerűen neuronokat (perceptronokat) kapcso- 
lunk össze egy hálózatban, hanem a neuronokat rétegekbe is szervezzük. 
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A hálózat háromféle rétegből (layer) épül fel: bemeneti, rejtett, valamint 
kimeneti rétegből. A rétegek angol nevei: input layer, hidden layer, output 
layer. Rejtett rétegből tetszőleges számú lehet, viszont bemenetiből és kime- 
netiből csak egy-egy. Ezt a 3.2. ábra szemlélteti. Bal oldalon van a bemeneti 








Bemeneti réteg Rejtett réteg(ek Kimeneti réteg 
(Input layer) (Hidden layer(s) (Output layer) 


3.2. ábra. A többrétegű perceptron felépítése 


réteg, jobb oldalon a kimeneti, közöttük pedig egy vagy több rejtett réteg. A 
jel balról jobbra áramlik, azaz egy adott rétegbeli neuron bemenete (inputja) 
a tőle balra lévő rétegbeli neuronok kimenete (outputja). Az általunk tár- 
gyalt modell esetén nincs kapcsolat rétegen belül és távolabbi rétegek között 
sem. Viszont minden neuron kapcsolatban van a vele közvetlenül szomszédos 
rétegek minden neuronjával. A többrétegű perceptron fontos tulajdonsága, 
hogy minden neuronjának saját aktivációs függvénye és saját súlyai vannak. 
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3.2. A többrétegű perceptron tanítása 


A többrétegű perceptron egy előrecsatolt hálózat (feedforward network). Az- 
az az input jel rétegről rétegre halad előre (a 3.2. ábrán balról jobbra), az 
output réteg pedig megadja a kimenő jelet. 

A tanítás fő lépései: 


— Megadjuk a kezdeti súlyokat. 


— A bemeneti jelet (azaz a tanító pontot) végigáramoltatjuk a hálózaton, 
de a súlyokat nem változtatjuk meg. 


— Az így kapott kimeneti jelet összevetjük a tényleges kimeneti jellel. 


— A hibát visszaáramoltatjuk a hálózaton, súlyokat pedig megváltoztat- 
juk a hiba csökkentése érdekében. 


Hogyan kell megváltoztatni a súlyokat ahhoz, hogy a hiba minimális 
legyen? A többrétegű perceptron tanítása a hiba visszaáramoltatása mód- 
szerrel (hiba visszaterjesztése, error back-propagation algorithm) történik. 
A jelölések megértéséhez először vizsgáljunk egyetlen neuront a hálózatból 


(lásd 3.3. ábra). 























3.3. ábra. A többrétegű perceptron egy neuronja 


A jelölések az alábbiak: 
i, j, k: í-edik, j-edik, illetve k-adik neuront jelöl (az i, j,k sorrend mindig 
balról jobbra haladást jelöl); 
n: a betanítás n-edik lépése; 
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vi(n): az i-edik neuron kimenete (egyben a j-edik neuron bemenete, ha j 
rétege közvetlenül i rétege után áll); 

voln) - I; 

wjo(n) — bj(n): a j-edik neuron torzítása; 

wji(n): az i-edik neuronból a j-edik neuronba mutató élen lévő súly; 

vj(n): a j-edik neuron által produkált összegzett érték, azaz 


vj(n) — ba wji(n)yiln); 


iefj előtti réteg) 


pj(.): a j-edik neuronhoz tartozó transzfer függvény; 
yj(n): a j-edik neuron kimenete, azaz yj(n) — 9j(vj(n)); 
dj(n): a kimenet igazi értéke, azaz amihez viszonyítjuk yj(n)-et (megjegyez- 
zük, hogy dj(n) csak a kimeneti rétegben ismert, hiszen ekkor ez az x(n) 
tanító pont által meghatározott output). 

Jelölje C a kimeneti réteg neuronjainak halmazát. Ekkor az n-edik lépés 
(négyzetes) hibája az alábbi 


£m-- Vám -5 I (dm) — lm). 


jeC jeC 


Az ebből képzett átlagos hiba pedig 


€ — 


z]lk 


N 
28(m); 
n-1 


ahol N a tanító pontok számát jelöli. 

A súlyok korrekcióját a gradiens módszer (delta rule) segítségével kapjuk, 
azaz 8 

zal 3-1) — gal) — Ain) — azt 3.1) 

ahol n 5 0 a tanulási paraméter. Viszont az összes wj; súly szerint kellene ké- 
pezni a (bonyolult) €£ függvény parciális deriváltjait (azaz a gradiensét). Ez 
viszont numerikusan nehezen kivitelezhető. Az error back-propagation elő- 
nye az, hogy rekurzíve számítja ki a deriváltakat. Az error back-propagation 
eljárás kialakítása és bevezetése tette alkalmazhatóvá a többrétegű percept- 
ront. A gradienst rétegenként visszafelé haladva határozzuk meg. A j neuron 
lokális gradiense megkapható a j utáni réteg lokális gradiensei segítségével. 
Mivel az utolsó (kimeneti) réteg lokális gradiensei közvetlenül számolható- 
ak, így rétegenként visszafelé haladva az összes lokális gradiens kiszámolható. 
Ennek részletes magyarázata az alábbi. 
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Tekintsük a (3.1) összefüggést. Alkalmazzuk az összetett függvény diffe- 
renciálási szabályát: 
JE(n) — 0£(n) 0ej(n) Dyj(lm) Dvj(n) 
Öwzi(n) " Dej(n)  Oyj(n)  00j(n)  dwzi(n) 
Az itt szereplő függvények alakjából kapjuk, hogy: 

















9€(n) — dl Jej(n) sgt 
Dej(n) jm), Dyj(n) 5 
Öyj(m) Övj(n) 


Ezek alapján a (3.1) képletből: 
Awji(n) — nej(n) oj (vj(n))yiln) — nőj(n)yi(n), 
ahol ój(n) a lokális gradiens, azaz 


55(m tg 7 card tutn)) 3.2) 

















Most meg kell különböztetnünk két esetet: a kimeneti réteget másképpen 
kell kezelni, mint a rejtett rétegeket. 

Amikor j kimeneti rétegbeni neuron, akkor az előbbi képlet közvetlenül 
alkalmazható, hiszen ekkor ej(n) — dj(n) — yj(n) ismert. 

Ha viszont j rejtett rétegbeli neuron, akkor a, dj(n) várt kimenet nem 
ismert. De a lokális gradiens rekurzíve mégis kiszámolható. Ugyanis az össze- 
tett függvény deriválási szabálya miatt: 


09€(n) bB 09£€(n) 0vr(n) 


N Dvr(n) 0vj(n) 


jin) — —Ovj(m) 











mel 
9 


keífj utáni réteg) 
- ba ök(n) wxj (n)25(vj(n)). 
kefj utáni réteg) 
Hiszen ha k a j utáni rétegben van, akkor 
vr(n)— 9. wxi(n)er(vi(n)) 
lefj rétege) 


az MLP szerkezete miatt. Ezt deriválva vj(n) szerint, wxj(n)pj(vj(n)) adó- 


dik. Így igazoltuk, hogy 
őj(n) — 9 (vj(n)) pa ök(n) wry (n) Í. (3.3) 


keífj utáni réteg) 
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Ez az összefüggés a hiba visszaáramoltatási algoritmus legfontosabb képle- 
te. Tehát a j neuron lokális gradiense megkapható a j utáni réteg lokális 
gradiensei segítségével. Mivel az utolsó (kimeneti) réteg lokális gradiensei 
közvetlenül számolhatóak, így rétegről-rétegre visszafelé haladva az összes 
lokális gradiens meghatározható. Összefoglalva az előzőeket: 


Hl 9€(n) 9€(n) ) 9vj(n) i i 
koz — ngat 71) uyg 7 rőjtndulm 


Tehát a súlyok aktualizálási mechanizmusa 











Awji(n) — nőj(n)yi(n) 











ahol v:(n) a j rétegét közvetlenül megelőző rétegbeli z neuron kimenete, 
6j(n) pedig (3.2) és (3.3) alapján kapható meg (a kimeneti, ill. a rejtett 
rétegekben). 

Az algoritmus megállítása. A hiba nullára redukálása általában nem ér- 
hető el, sőt ez nem is helyes cél az esetek többségében. A másik probléma 
a hosszú futási idő. Csupán gyakorlati tanácsok adhatóak a megállítási sza- 
bályra. 


— Első lehetséges megállási szabály. Ha a gradiens vektor kicsi, akkor 
megállunk, mivel ilyenkor már jelentősen nem fognak változni a súlyok. 


— Második lehetséges megállási szabály. Ha egy epoch alatt az átlagos 
négyzetes hiba csökkenése kicsi. 


— Harmadik lehetséges megállási szabály. Ha az epochok száma vagy a 
futási idő túl nagy. 


Az error back-propagation algoritmus, mivel a gradiens módszeren ala- 
pul, érzékeny a kezdeti értékekre. Az is előfordul, hogy nem globális, hanem 
csupán egy lokális minimumot talál meg. Tehát a módszer inicializálása (azaz 
a kezdeti súlyok megválasztása) szintén fontos feladat. 


A többrétegű perceptron használatának lépéseit: 
1. Megszerkesztjük a hálózatot (elméleti megfontolások vagy korábbi ta- 


pasztalat alapján). Azaz megadjuk a hálózat típusát, a rétegek számát, 
a rétegekben a neuronok számát, valamint a transzfer függvényeket. 


2. Meghatározzuk a tanítás módszerét. Betanítjuk a hálózatot az adott 
tanító pontokkal. 
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3. Teszteljük a hálózatot (tesztpontokkal, esetleg magukkal a tanító pon- 
tokkal). Ekkor vagy elfogadjuk, vagy új hálózatot alakítunk ki. Ha új 
hálózat szükséges, akkor visszatérünk az 1. pontra. 


4. Az elfogadott hálózatot használjuk (új adatokra, azaz olyanokra, me- 
lyek se nem tanító pontok, se nem tesztpontok). Ekkor természetesen 
az adott inputhoz tartozó outputot nem ismerjük. A hálózat által nyúj- 
tott outputot fogadjuk el. 


3.3. A back-propagation eljárás variánsai és tulaj- 
donságai 


Az MLP tanításának számos változatát dolgozták ki, az egyes programcso- 
magok több tanítási módszert is felkínálnak a felhasználónak. Ezek közül 
kell a konkrét feladatnak megfelelőt kiválasztani. Itt a teljesség igénye nél- 
kül felsorolunk néhány módszert, amelyek közül többet ki is fejtünk ebben 
a szakaszban és az Appendixben. 


Talán a legfontosabb megjegyzés: a numerikus matematikában számos 
általános eljárás létezik az € célfüggvény w szerinti minimumhelyének meg- 
határozására. Ezeket az MLP esetén úgy alkalmazzák, hogy a gradienst az 
error back-propagation algoritmussal kiszámítják, majd a konkrét eljárásban 
felhasználják. 


Erre a leginkább szemléletes példa a konjugált gradiens módszer, azaz 
amikor a gradienst az error back-propagation algoritmussal kiszámoljuk, de 
a lépés nem a negatív gradiens irányába történik, hanem bizonyos ortogona- 
lizációs eljárással meghatározott, módosított irányba. A konjugált gradiens 
módszernek több variánsa is létezik: a Fletcher-Reeves-formula, (ennek MLP- 
beli megvalósítása a conjugate gradient back-propagation with Fletcher— 
Reeves updates), a Polak-Ribiére-formula (conjugate gradient back-propa- 
gation with Polak-Ribiére updates), a Powel-Beale-formula (conjugate gra- 
dient back-propagation with Powell-Beale restarts). 

A kvázi Newton-módszerek közül leggyakrabban a Broyden-Fletcher— 
Goldfarb-Shanno-formulát használják (BFGS guasi-Newton back-propaga- 
tion). Ehhez természetesen a gradienst az error back-propagation algorit- 
mussal számítják ki. 

Szintén használatos a Levenberg-Marguardt-eljárás (Levenberg-Margu- 
ardt back-propagation). 
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A gradiens módszert finomíthatjuk a korábbi lépések bevonásával is, en- 
nek neve általánosított delta szabály, vagy momentum módszer (gradient 
descent with momentum back-propagation) . 

A tanító pontok feldolgozása történhet egyenként (soros feldolgozás), 
vagy epochonként (kötegelt feldolgozás) . 

Megjegyezzük még, hogy az egyes módszereknek további variánsai is lé- 
teznek, bizonyos módszerek pedig egymással is kombinálhatóak. 


3.3.1. Az aktivációs függvény deriváltjáról 


Az aktivációs függvényeket már a 2.2. szakaszban tárgyaltuk. Az MLP-nél 
nyilván csak differenciálható transzfer függvényt alkalmazhatunk. A ó lokális 
gradiens kiszámításához ismernünk kell v deriváltját. 

Tekintsük a gyakran használt logisztikus függvényt: 





p(z) — ENESSEVEJI ahol a 5 0 konstans. 
Ea A eggs, 


(1 4 exp(—am))? 


Innen 


Pj(uj(n)) — agj (vj(n)) (1 — ez(vj(n))) — ayj(n) (1 — yj(n)). 


Azaz ebben az esetben a lokális gradiens számolásánál a (3.2) és (3.3) kép- 
letekben a j neuron yj outputja kell csupán. 
Most vizsgáljuk a tangens hiperbolikus függvényt: 


2 








(ol) ESSZÉ 1 —tanh(r). 
Ezért ( ) 
8 4exp(—2T I 
Innen 


j(vj(n)) — (1-4 ej(vj(n))) (1 — 9j(vj(n))) — (1-7 yy(n)) (1 — yj(n)). 


Tehát ebben az esetben is a lokális gradiens számolásánál a, (3.2) és (3.3) 
képletekben a j neuron yj outputja kell csupán. 
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3.3.2. Az n tanulási paraméter és a momentum konstans 


A tanulás n paramétere (rate of learning) nagy mértékben befolyásolja a 
tanítási algoritmus sebességét, stabilitását. Kicsi n esetén kis mértékben 
változnak a súlyok, sima lesz a súlyok terében a trajektória, de lassú a 
konvergencia. Nagy ) esetén gyorsabb a konvergencia, de az algoritmus in- 
stabillá válhat, oszcillálhat. Lehetséges az is, hogy a tanulási paramétert 
menet közben változtatjuk (gradient descent with adaptive learning rate 
back-propagation) . 
Az oszcillálást elkerülhetjük a delta szabály alábbi módosításával: 


Awsi(n) — aA wji(n — 1) £ )őj(n)yi(m), n71,2,..., 


ahol a általában egy pozitív szám, ami a korábbi lépés bevonásának a mérté- 
két szabályozza (a képletben Aw;;(0) — 0). a-t momentum konstansnak ne- 
vezzük. A módszer neve: általánosított delta szabály (vagy gradient descent 
with momentum back-propagation). A fenti differencia egyenlet megoldása: 


Innen látszik, hogy a-t 1-nél kisebb pozitív számnak érdemes választani. 
Továbbá az is, hogy az általánosított delta szabály gyorsítja a konvergenciát, 
de véd az oszcillációtól. 


3.3.3. Soros és kötegelt tanítás 


Szakasznak (epochnak) nevezzük a teljes tanító halmaz egyszeri végigára- 
moltatását a hálózaton. 

Soros (szekvenciális) tanításnak nevezzük, ha minden egyes tanító pont 
után összevetjük a kapott outputot a várt outputtal, és módosítjuk a súlyo- 
kat. Előnyei: kevesebb tárolási helyre van szükség, könnyű implementálni. 

Kötegelt (batch) tanításnak nevezzük, ha csak egy-egy teljes epoch után 
végezzük el a súlyok korrekcióját. Ehhez az átlagos négyzetes hibát kell 


minimalizálni: KE 
Z-t vyá 


Ebből a képletből ki lehet számítani a gradienst az előzőekhez hasonló mó- 
don. A képletből az is látszik, hogy az eljárás elvileg stabilabb. Azonban a 
nagy számolási igény miatt numerikus problémák adódhatnak. 
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Nagy és bonyolult problémákra szívesebben alkalmazzák a szekvenciális 
tanítást. Tanácsos epochonként más-más (véletlen) sorrendben feldolgozni a 
tanító pontokat. 


3.3.4. Heurisztikus megjegyzések a back-propagation algorit- 
musról 


— Nagy és redundáns tanító halmaz esetén a soros tanítás gyorsabb, mint 
a kötegelt. 


— A tanító pontokat úgy válasszuk meg, hogy a lehető legtöbb informáci- 
ót tartalmazzák. Ez elérhető, ha olyan pontot veszünk, melynél a hiba 
maximális. Vagy pedig olyat, amelyik , nagyon eltér" a korábbiaktól. 


— Általában gyorsabb a tanulás, ha az aktivációs függvény antiszimmet- 
rikus (azaz páratlan: p(—xr) — —(x)). Antiszimmetrikus például a 
tangens hiperbolikus függvény. 


— Az az előnyös, ha a súlyok közel azonos mértékben tanulnak. Ahhoz, 
hogy ezt elérjük, a tanító pontokat , előfeldolgozni" (preprocessing) kell: 
centrálni, normalizálni, . . . 


3.3.5. Osztályozás több halmaz esetén 


A többrétegű perceptronnal elvégezhető az M osztályba sorolás is. Legyen 
tehát most m-dimenziós a bemenet, és M-dimenziós a kimenet. Az MLP 
által előállított függvény pedig az egyszerűség kedvéért legyen 


F:R" 5 RV. 
Az MLP az x; E R", j — 1,..., N, tanító pontokra meghatározza az y; — 
— F(x;) értékeket. De az igazi függvénynek az x; tanító pontokra ismerjük 
az igazi értékét: d; . Mivel osztályozásról van szó, így ha zj a k-adik osztályba 


tartozik, akkor a dj vektor k-adik komponense legyen 1, többi pedig 0: 


0 


dj — 1 §— k-adik elem. 
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Az 
1 N 
— úg , slat: Ki 2 
Ez 


hibát kell minimalizálni. A fenti esetben tehát az output rétegben M neuron 
van. 

Azonban az osztályokba sorolás megoldható olyan hálózattal is, amely- 
ben egyetlen output neuron van. Ekkor ezen egydimenziós érték különböző 
(diszjunkt) intervallumokba esése jelentheti a különböző osztályokat. 


3.3.6. Az MLP mint univerzális approximátor 


Egy rejtett rétegű perceptronnal tetszőleges folytonos függvény approximál- 
ható. Ez az alábbi tétel lényege. 


3.1. Tétel. Legyen p: R 5 R monoton növekvő függvény, melyre p(— oo) — 
— —1, (oo) — 1. Legyen f: la, bÍ"9 5 R folytonos, és legyen c 5 0. Ekkor 
léteznek mi, ag, valamint az, b;, wij konstansok (i — 1,2,...,mai és j — 
— 1,2,..., mo) úgy, hogy 


mi mo 
a9-k Yar PR wijzj 4 bi — f(T1,..., tmo)I CE 
i—1 j-1 


minden (11, . . . , tmo) € la, bI"" esetén. 


A tétel bizonyítását és további irodalmi utalásokat megtalálhatjuk a [28] 
monográfiában, lásd még [18]. 


3.3.7. Általánosítás 


A hálózatot akkor nevezzük betanítottnak, ha a tanító pontokra helyes ered- 
ményt ad. Ez függvényillesztésnél azt jelenti, hogy a kapott függvény a ta- 
nító pontokra jól illeszkedik. Osztályozás esetén pedig azt, hogy a tanító 
pontokat (vagy azok többségét) helyesen osztályozza. De sajnos még meg- 
történhet, hogy a többi adatra (pl. teszt adatokra) nem helyesen viselkedik 
a hálózat. Ez természetesen problémát jelent a használatban. 

Azt mondjuk, hogy a betanított hálózat jól általánosít, ha helyes ered- 
ményt szolgáltat minden adatra, nem csak a tanító pontokra. Ezt természe- 
tesen csak a teszt adatokra tudjuk ellenőrizni. 

Amikor a hálózat csak a tanító pontokra működik jól (túlságosan is jól), 
de nem jól általánosít, azaz a többi adatra hibás eredményt ad, akkor tipi- 
kusan az alábbit láthatjuk: 
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— függvényillesztésnél a tanító pontokra jól illeszkedő, de nagyon , hul- 
lámzó" függvényt; 


— osztályozásnál a tanító pontokat jól osztályozó, de nagyon , szabályta- 
lan" alakú tartományokat. 


Ekkor mondjuk a hálózatot túlillesztettnek (túltanítottnak). Ezen hiba ellen 
egyrészt úgy védekezhetünk, hogy nem szerkesztünk túl bonyolult hálózatot, 
másrészt pedig úgy, hogy az elérendő legkisebb négyzetes hibát nem állítjuk 
túlságosan kicsire. 

A 3.4. ábra bal oldalán egy jó függvény illesztés látható (azaz ez a modell 
jól általánosít), míg a jobb oldalán a tanító pontokra jól illeszkedő, de nagyon 
, hullámzó" függvény (azaz ez a modell nem jól általánosít) . 








Jól általánosít Nem jól általánosít 


3.4. ábra. Ugyanazon tanító pontokra két függvény il- 
lesztése 


3.3.8. A konjugált gradiens módszer 


A konjugált gradiens módszer általánosan használt szélsőérték meghatáro- 
zására. Az átlagos hiba w(n) körüli Taylor-sora: 


€(w(n) 4 Aw(n)) — €(w(n)) - g(w(n)) " Aw(n)-- 
3 5 Aw(n)T H(w(n))w(n) lsz 


ahol g(w) a gradiens vektor, H(w) pedig a Hesse-mátrix. A gradiens mód- 
szer esetén a súly korrekciója a negatív gradiens irányába történik: 
Aw(n) — w(n 41) — w(n) — —ng(w(n)). 


Viszont a konjugált gradiens módszer is alkalmazható, hiszen a fenti Taylor- 
sor alapján közelítőleg egy 


f(2) — 527 Az —b!n- c 
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alakú kvadratikus formát kell minimalizálni. Tehát úgy fogunk eljárni, hogy 
a gradienst a korábban megismert error back-propagation eljárással kiszá- 
mítjuk, de azt a konjugált gradiens módszer alapján úgy módosítjuk, mintha 
a közelítő kvadratikus forma minimumát keresnénk. 

A formulák levezetése az Appendixben található, itt csak a végeredmény- 
ként kapott algoritmust ismertetjük. 

Jelölje tehát s(0), s(1), . . ., sín — 1) azokat az irányokat, amelyek felé 
már léptünk. A rekurzív eljárás az alábbi. 

1. Inicializálás. Legyen w(0) a kezdeti súlyvektor. Alkalmazzuk ebben a 
pontban a back-propagation eljárást a g(0) gradiens kiszámítására ugyanúgy, 
ahogyan korábban megismertük. Legyen 


s(0) — r(0) — —g(0) 
a negatív gradiens, tehát az az irány, amerre w(0)-at változtatjuk. 
2. Lépés n — 1-ről n-re. Ha az s(0), ..., s(n — 1) irányok már meg- 
vannak, akkor megvan a w(n — 1) súlyvektor is. Keressük az új súlyvektort 





w(n) — wlin— 1) 3-n(ím—1)s(n— 1) 


alakban. Úgy határozzuk meg )(n — 1)-et, hogy £(w(n)) minimális legyen. 
(Ez ún. direkt keresés, azaz egy egyenes mentén való keresés, ami numeri- 
kusan megoldható.) 

Ezután a w(n) pontban back-propagation algoritmussal keressük meg £ 
gradiensét, azaz g(n)-et. Legyen r(n) — —g(n). Ha IIr(mII £ őllr(0)II. ahol 
ó 5 0 előre adott kis szám, akkor megállunk. Ellenkező esetben folytatjuk. 
Viszont a, következő lépés nem a —g(n) negatív gradiens irányba történik, 
hanem a konjugált gradiens módszer szerint az 


s(n) — r(n) 4 8(m)s(n— 1) 
irányba, ahol (a Fletcher-Reeves-formulaszerint) 


r(n)Tr(m) 
r(ín—1)!r(n—1) 








B(n) — 


Ezután n-et 1-gyel megnöveljük, és visszatérünk a 2. lépés elejéhez. 

A Fletcher-Reeves-formula levezetése az Appendixben található. Meg- 
jegyezzük, hogy a Fletcher-Reeves-formula helyett használható a Polak-— 
Ribiére-formula is, ami szerint 


r(n) "(r(n)—r(n— 1) 


KESZ TE] 
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3.3.9. Kvázi Newton-módszerek 


A kvázi Newton-módszerek közül a leggyakrabban használt Broyden-Flet- 
cher-Goldfarb-Shanno-formula algoritmusát ismertetjük. (Részletesebb ki- 
fejtését pedig az Appendixben adjuk.) Tehát az € célfüggvény minimumát 
keressük. Jelölje gy a gradiens k-adik értékét, Br a közelítő Hesse-mátrix 
k-adik értékét, wx, a minimumhely k-adik közelítését. Legyen wo a kezdeti 
közelítés, Bo a közelítő Hesse-mártix kezdeti értéke (általában az egységmát- 
rix). Határozzuk meg az € célfüggvény gg gradiensét a wo pontban. 
Az iterációs lépések: 


— Oldjuk meg a Bxrs — —g, egyenletet, a megoldást jelölje s. 


— Egyenes mentén történő keresést alkalmazunk. Az aktuális wx pontból 
Sk irányában keressük meg az € célfüggvény minimumhelyét. Ez a pont 
lesz a minimumhely következő közelítése: wx. 1. 


— Számítsuk ki az € célfüggvény gr41 gradiensét a wxr4i pontban. 


— Legyen őr — Wr4y1— Wx a változó differenciája, yx — 9r41 — 9x Pedig 
a gradiens differenciája. 


— Legyen 
YERTE — BRÖKÖK Br 
YEŐR ŐR Bkök 


a közelítő Hesse-mátrix aktualizálása. 





Br41— Br 7 


Az MLP esetén természetesen a gradienst az error-back-propagation el- 
járással számítjuk ki. 


3.3.10. A Levenberg-Marguardt-eljárás 


A Levenberg-Marguardt-módszereket szokták a korlátozott lépésű módsze- 
rek, illetve a megbízhatósági tartomány módszerek között tárgyalni. Azaz 
úgy tekintjük, hogy egy bizonyos tartományon a másodfokú Taylor-közelítés 
elég jó, és ezen a tartományon belül keressük a közelítő polinom minimumát. 
Két szempont között kell egyensúlyoznunk: a környezet legyen minél tágabb, 
de a választott környezetben legyen megfelelő a közelítés. 

Tekintsük a négyzetes hibafüggvényt: 


E(w) — ő llelw)l2— 2 9 eu) — 5 (di — vi(aw 
1-1 


1-1 


he 8 LB vek 
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Az € többváltozós célfüggvény minimumát keressük. Itt w — (wa, . . . , Wm) ! 
m-dimenziós változó és e(w) — (e1(w), . . . , ep(w)) " a p-dimenziós hiba vek- 


tor. J(w) jelölje ap x m-es Jacobi-mátrixot: 











De1(w) De1(w) 
Öw1 kölök; Owm 
J(w) — : Es ; 
dep(w) dep(w) 
Öwi1 te Owm 


A rövidség kedvéért jelölje wx a minimumhely k-adik közelítését. Legyen 
Jk — J(wk), ex — e(wxk) a Jacobi-mátrix, illetve a hiba vektor értéke a 
k-adik közelítés esetén. A közelítő Taylor-polinom alábbi módosítását hasz- 
náljuk: 


1 
grk(ő) z E(Wwk) zF ej JŐ - 20" Jr JÖ. 
A Levenberg-Marguardt-algoritmus egy lehetséges változata az alábbi: 


(i) Adott wk és ur 5 0, számítsuk ki az e hiba vektor wx-beli Jacobi- 
mátrixát: Jk; 


(ii) oldjuk meg a 
(Ik Ik FikDő — —J4 ek 


egyenletet, a megoldás legyen őz (itt / az egységmátrix); 
(iii) számítsuk ki az E(wk 1- ők) függvényértéket és a közelítés jóságát mérő 


E(wr) — E(wk Th Ök) 
ak(0) — axk(ők) 





Tk — 


hányadost; 


(v) ha rx C 0.25, akkor legyen Ur4y1 — 4Lk, 
ha Tr 5 0.75, akkor legyen vr41 — Uk/2, 
egyébként legyen Ur 1 — Uk; 





(vi) ha rk £ 0, akkor legyen wr41 — wk, egyébként legyen Wrk41 — WkT-Ők. 


A fenti algoritmusnak számos változata van, azoknak pedig számos imp- 
lementációja. Az Appendixben alaposabban magyarázzuk az algoritmust. 
További részletekről, valamint a Levenberg-Marguardt-algoritmus jó tulaj- 
donságairól lásd a Fletcher [14] és a Nocedal és Wright [34] műveket. 
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3.4. A hálózat metszése 
A hálózat felépítésére két út kínálkozik. 


— A hálózat növelése. Ekkor kiindulunk egy kicsiny hálózatból. Ha azt 
nem vagyunk képesek jól betanítani, akkor bővítjük újabb neuronnal 
vagy réteggel. Ezt addig folytatjuk, amíg nem kapunk olyan hálózatot, 
amely már jól betanítható. 


— A hálózat metszése (network pruning). Ez pont az ellenkezője az elő- 
zőnek. Kiindulunk egy nagy és jól betanított hálózatból. Ezután csök- 
kentjük a neuronok és súlyok számát addig, hogy még jó eredményt 
adjon. 


Ebben a szakaszban a hálózat metszésével foglalkozunk. A metszés fő 
indoka az alábbi. Egy nagy hálózatot általában sikerül betanítani, azaz a 
minta pontokhoz illeszteni. De lehet, hogy túl bonyolult lett a hálózat. En- 
nek hátránya egyrészt a lassúság lehet, másrészt a túlillesztés. Azaz nagyon 
pontosan illeszkedik a tanító pontokhoz, de nem jól általánosít. 

Felsorolunk néhány hálózat metszési technikát. 


3.4.1. Regularizáció 


Ez a nagyon általános elv Tyihonovtól származik. Az alábbi rizikó függvényt 
kell minimalizálni. 


R(w) — €.(w) 4- A€.(w), 


ahol w a súlyvektor. £; a már korábban megismert standard hiba, azaz a 
rendszer működésének hibája. Például 


€£.(w) — 8 (d; — vi(w, x))? 


i 


egy olyan többrétegű perceptronnál, amelynél az i-edik output neuron ki- 
menete v;(w, 1), míg az igazi output d;. A fenti képletben 0 £ A a oo a 
regularizációs paraméter, €e pedig az ún. büntető függvény (penalty functi- 
on), ami csak magától a modelltől függ. Ez a modellre vonatkozó korábbi 
információkat tartalmazhat, illetve a bonyolult modellt bünteti. Ennek álta- 


lános alakja: 
1 2 
few: f/ 


k 
: u(x) da . 


azrt (2, w)) 











3.4. A hálózat metszése 47 





Ezen általános alakot az RBF tárgyalásánál vizsgáljuk majd. Most csu- 
pán felsorolunk néhány, a gyakorlatban használt büntető függvényt. 
A súly pusztítása (weight decay). Ekkor a büntető függvény: 


fel) — Irol? — Da. 


Ezzel a súlyok egy részét 0 közelébe kényszeríthetjük. Két osztályba sorol- 
hatjuk a súlyokat: vannak nagy és vannak kicsi hatású súlyok. Az utóbbiak 
felesleges súlyok, ezek törlésével a hálózat jobban fog általánosítani. 
A súly eliminálása (weight elimination). Ekkor a büntető függvény: 
(wi/wo)? 
EVE —— e) 
ahol wo 5 0 rögzített EZENSEESES STVt a wz;/ wo függvényében a hiba szimmet- 
rikus. A 3.5. ábrán látható az K függvény grafikonja. Ebből látszik, hogy 








3.5. ábra. Az 





S sale két 
142 függvény 


ez a büntető függvény néhány nagy súlyt is meghagyhat. 
Közelítő simítás (approximate smoother). Ha egy rejtett réteg van és 
egyetlen kimeneti neuron, akkor a büntető függvényt definiáljuk az 


M 
w) — 9 wőjllwz][? 
j—I 


képlettel, ahol woj a kimeneti neuron j-edik súlya, wj pedig a j-edik rejtett 
neuron súlyvektora. 


3.4.2. A Hesse-mátrixon alapuló metszés 


Fejtsük Taylor-sorba az átlagos hibát a w súlyvektor körül. 


45 a ik 
E€(w tt Aw) — E(w) 4-g! (wjAw 5Aw" HAw FF O(IlawII), (8.4 
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ahol w az éppen kiszámított súly, Aw a keresett változása a súlynak, g(w) 
a gradiens vektor, H — H(w) a Hesse-mátrix, O(IJAwII?) pedig a közelítés 
hibája. Keressük meg a súlyok azon Aw változtatását, amely €-nak a lehető 
legkisebb növekedését idézi elő. Itt a változtatás pl. törlés lehet. 

Tegyük fel, hogy a tanítás befejeződött, így azt is feltehetjük, hogy a 
gradiens vektor értéke (közelítőleg) nulla. Ekkor a fenti (3.4) összefüggésből 
9! (w)jAw elhagyható, azaz 


Salle at sz 1 
A€ — €(w 1 Aw) — €(w) — 5Aw HAw. (3.5) 


Az OBS (Optimal Brain Surgeon, optimális agysebész) eljárást ismertetjük. 
Ennek speciális esete OBD (Optimal Brain Demage, optimális agyrongálás), 
amikor H diagonális voltát tételezzük fel. Az OBS célja egy súlyt nullává 
tenni úgy, hogy ugyanakkor a (3.5) kifejezést minimalizáljuk (azaz a hibát 
a lehető legkevésbé növeljük). A w; súly nullává tétele megegyezik azzal a 
feltétellel, hogy Aw; 3 wz; — 0, azaz 


1/ Aw t w; — 0, (3.6) 


ahol 1; az 7-edik egységvektor, azaz olyan vektor, amelynek az i-edik kom- 
ponense 1, a többi pedig 0. Tehát egy feltételes minimum problémával ál- 
lunk szemben: keressük 5Aw! HAw minimumát a (3.6) feltétel mellett. A 
A Lagrange-multiplikátorral megkonstruáljuk a Lagrange-függvényt: 


1 
S — 5Aw  HAw— MI; Aw wi). 


A minimum meghatározásához deriváljuk 5-et Aw szerint. Ekkor kapjuk, 


hogy 
HAw — XI; — 0, 


ahonnan 
Aw — AH 11; , (3.7) 
1/ Aw — A1/ H 11, . 
Felhasználva a (3.6) feltételt, azt kapjuk, hogy 


—Wi — A (H] ; 

ahol [H szőj4es a H inverzének (iz, i)-edik eleme. Innen A-t kifejezve és vissza- 
helyettesítve a (3.7) egyenlőségbe, kapjuk végül w optimális változását: 

Wi 


TT, 


ii 


Aw — — 





H-T 
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Ezen pontban § értéke 





2 (1-T, 21H] 


2 
öEg ( Et ) 11 H-1HH711, — — 
ii ii 

S; mutatja a w; törléséből adódó hiba növekedést, ezt a w; súly kidomboro- 
dásának (saliency) nevezik. Azaz a felületen a w; súly 0-ba történő mozgatása 
esetén bekövetkező kidomborodás. Kiszámítjuk az összes S; kidomborodást. 
Végül az OBS eljárásban a legkisebb 5S;-hez tartozó w; súlyt tesszük nullává. 

A Hesse-mátrixz inverzének kiszámítása. Az előző eljáráshoz meg kell ha- 
tározni a Hesse-mátrix inverzét. Azonban a mátrix invertálás elvégzése nu- 
merikus problémákhoz vezethet. Az egyszerűség kedvéért tegyük fel, hogy 
az MLP-nek egyetlen kimeneti neuronja van. Ez pl. függvényközelítésnél re- 
alisztikus. Deriváljuk kétszer az 


sei ji d éz 
gy éz (n) — y(n)) 


átlagos hibafüggvényt. Jelölje F(w,x) a hálózat által megvalósított leké- 
pezést. A két változó a w súlyvektor és az z input vektor, azaz y(n) — 
— F(w(n), x(n)) az output. Az első derivált (azaz a gradiens vektor): 


1 oF(w, x(n)) i 


N 
Y(dn) un S 
n7-1 





DE 
Ow 


2] 


A második derivált (azaz maga a Hesse-mátrix): 


ve 16 ( (seem Mrs 


n7-1 
z. w, EN 
(an) — vin SEA 2). 








Feltesszük, hogy a hálózat jól illeszkedik a tanító pontokra, azaz d(n) és y(n) 
közel van egymáshoz, így a fenti összegben a második tagot elhanyagolhat- 
juk. Így kapjuk a Hesse-mátrix következő közelítését: 


mm - 1 §5 (ertesz) (ertoz]T ag 
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Vezessük be az alábbi jelölést: 





Legyen 
H(n) — 3 €(f)é(k)" — H(n—1) 4 €(mé(mT , 
k-1 
ahol n — 1,2,..., N. Ez összhangban van H(N) fenti (3.8) képletével. Ez a 
rekurzió alkalmas az alábbi mátrix inverziós lemma ( Woodbury-egyenlőség , 


melynek speciális esete a Sherman-Morrison-formula D — 1 esetén) alkal- 
mazásához. 


3.2. Lemma. Legyenek A és B pozitív definit mátrixok, C és D pedig tet- 
szőleges (alkalmas méretű) mátrixok. Ha 


A—B4CDC!, 


akkor 





A7!— B-1—B-Jce(D-1a4c!B-1ey ie! B. 


Bizonyítás. Szorozzuk össze a fenti két egyenlőség jobb oldalait (jelöljük a 
szorzatot X-szel): 





jez [B 1. B-CO(DI 4 CBEGE SB [B 59 cpc"1] Iz: 
—1—B-1C(D-14c€!B-1c)y1Cc! 4B-1ceDpc! 
— [/m——— ;ű—— 
B-1C(D-134C1TB-1C)-1D-1DCT 
— B-1C(D-! a c€c1B-1c)y1ce!B-JeDCT. 





A második tagot azért bővítettük D7!D-vel, hogy össze tudjuk vonni a 
negyedik taggal: 


X—-I—- B 1C(D-1a4c1B-1c)-t(D-!ac!B-JO)DCT 4 B-JCDCT. 


A második tagban két tényező egymás inverze, így 





X-I-—B1ceDpc!T 34B7ICDCT—-—IT. 











Alkalmazzuk most a fenti 3.2. lemmát 


H(n) — H(ín—1) 4 €(nélm)" 
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esetén. Legyen 
A — H(n), B—- H(n — 1), C — €(n), D-1. 


A lemma alapján 





H(n)! — H(n—1)1— H(n—1)-!é(n)x 
x (1 hé(n) "H(n — 11-én) €(n)"H(n—1) 1. 


Innen 


H(n—1)"é(méln) "Hín—1)" 


SES 57) al 
H(ny"! — H(n—1) 14EMTH(n—1)—é(n) 7 





mivel 1 x 1-es mátrixot kell invertálni. Ezzel a rekurzióval lépésenként kiszá- 
molható H(N)"1. 

Viszont kezdőértéket is meg kell adnunk. Mivel H(0) igazi értéke 0 lenne, 
ami nem invertálható, így legyen H(0) — óI, ahol ő egy kicsi pozitív szám, 
I pedig az egységmátrix. Ezzel adódik a 


1 
H(O0)-! — 5. 


kezdőérték választás a rekurzióhoz. 


3.5. Numerikus példák 


3.3. Példa. Közelítsük az f(x) — r? — z függvényt a [—2,2] intervallu- 
mon, ha a megfigyelések a —2 és 2 közötti, egymástól egyenlő távolságban 
lévő (azaz ekvidisztáns) alappontokban a hiba nélkül mért függvényérté- 
kek. Konkrétan 9 tanító pontot választottunk. A megoldás két rejtett réte- 
get tartalmazó hálózattal a 3.6. ábrán látható. Az első rejtett rétegben 6, 
a másodikban 3 neuron van és mindegyik neuronban tangens hiperbolikus 
transzfer függvényt használtunk. A kimeneti rétegben egyetlen neuron talál- 
ható lineáris transzfer függvénnyel. A tanítás konjugált gradiens módszerrel 
történt (pontosabban szólva konjugált gradiens back-propagation eljárással, 
Fletcher-Reeves-formulával). Itt a közelítő függvény viszonylag jól illeszke- 
dik a becsülendőhöz. 

A példa következő részében a tényleges mérések egy realisztikusabb meg- 
valósítási lehetőségét, a mérési hibával terhelt esetet tekintjük. Most az 
f(a) — x? — z függvényt szintén a [—2,2] intervallumon figyeljük meg, a 
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3.6. ábra. Az f(x) — r? — z függvény megfelelő közelí- 
tése MLP-vel 


megfigyelések —2 és 2 között 27 db ekvidisztáns alappontban történnek, de 
a függvényértékeket csak hibával terhelten tudjuk mérni. A mérési hiba 0 
várható értékű, 0.5 szórású (független) normális eloszlású. Azonban közelí- 
teni a mérési hibák nélküli függvényt kell! 


A 3.r. ábrán látható két próbálkozás közül az MLP2 kevéssé sikeres: 
,túlillesztett". Itt két rejtett réteg van, mindkettőben 18-18 neuron. Az első 
rétegben logisztikus, a másodikban tangens hiperbolikus transzfer függvényt 
használunk. A kimeneti rétegben egyetlen neuron található lineáris transzfer 
függvénnyel. A tanítás konjugált gradiens módszerrel történt. Habár a háló- 
zat nagy méretű, és a tanító pontokban a mért (de hibás) adatokat jól köze- 
líti, azonban rosszul általánosít. Próbálkoztunk kisebb hálózattal és nagyobb 
(legkisebb négyzetes £) hibát engedve. Az eredmény az MLP3 (3.7. ábra), 
amely a tanító pontokban kevésbé pontosan illeszkedik (az egyébként is hi- 
bás) mérési eredményekre, azonban jobban általánosít. MLP3-ban két rejtett 
réteg van, 9 illetve 3 neuronnal. Mindkettőben tangens hiperbolikus transz- 
fer függvényt használunk. A kimeneti rétegben egyetlen neuron található 
lineáris transzfer függvénnyel. A tanítás konjugált gradiens módszerrel tör- 
tént. A fenti eset azt is mutatja, hogy mérési hibák esetén több tanító pont 
kell, mint pontos mérések esetén. 
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3.7. ábra. Az f(x) — r? — z függvény közelítése mérési 
hibák esetén. MLP2 túl bonyolult és túlillesztett, MLP3 
egyszerűbb és jobban általánosít 
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3.8. ábra. Az f(x) — x? — x függvény közelítése ke- 
vés tanító pont esetén. MLP1 kevés neuron, MLP2 sok 
neuron 
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Vizsgáljuk meg, hogy mi történik kevesebb tanító pont esetén! Ha csak 6 
tanító pontunk van, akkor már kevésbé jó közelítéseket kapunk (annak elle- 
nére, hogy maga a függvény nem , bonyolult"). Az első megoldás a 3.8. ábrán 
látható MLP1. Itt egy rejtett réteg van, 9 neuronnal, tangens hiperbolikus 
transzfer függvénnyel. A kimeneti rétegben egyetlen neuron található lineáris 
transzfer függvénnyel. A legkisebb négyzetes hibát nem szorítottuk túlságo- 
san le. A neurális hálózat egyszerűsége ellenére a közelítő függvény elég jó, 
de sajnos nem tökéletesen illeszkedik a becsülendőhöz. A 3.8. ábrán látható 
MLP2 esetén viszont bonyolult hálózatot alkalmaztunk. Az első rejtett réteg- 
ben 15 neuron van logisztikus transzfer függvényekkel, a másodikban 9 neu- 
ron van tangens hiperbolikus transzfer függvényekkel, a kimenetiben pedig 
egy neuron lineáris transzfer függvénnyel. A tanítás Levenberg-Marguardt- 
féle back-propagation eljárással történt. Ezzel a közelítő függvény ismét , ug- 
rál". 


3.4. Példa. Közelítsük az 


jelnél kai 
függvényt a [—1, 4] intervallumon, ha a megfigyelések a —1 és 4 közötti, egy- 
mástól egyenlő távolságban lévő (azaz ekvidisztáns) alappontokban a hibával 
terhelten mért függvényértékek. Konkrétan 21 tanító pontot választottunk. 
A mérési hiba pedig minden tanító pont esetén 0 várható értékű és 0.3 
szórású normális eloszlású véletlen szám volt. Az első megoldás a 3.9. ábrán 
látható. Itt egy rejtett réteg van, 9 neuronnal, tangens hiperbolikus transzfer 
függvénnyel. A kimeneti rétegben egyetlen neuron található lineáris transz- 
fer függvénnyel. A tanítás konjugált gradiens módszerrel történt (konjugált 
gradiens back-propagation eljárással, Fletcher-Reeves-formulával). Az € leg- 
kisebb négyzetes hibát nem szorítottuk túlságosan le. A neurális hálózat 
egyszerűsége ellenére a közelítő függvény viszonylag jó, de sajnos nem töké- 
letesen illeszkedik a becsülendőhöz. 

A 3.10. ábrán látható két ,próbálkozás" azonban kevésbé sikeres: a közelí- 
tő függvények a tanító pontokban jól illeszkednek a hibával terhelt értékekre, 
de a közelítendő függvényt rosszul approximálják, , ugrálnak". Az alkalma- 
zott modellek nem megfelelőek, bonyolultak, túlillesztettek. MLP1-ben egy 
rejtett réteg van, 42 neuronnal, tangens hiperbolikus transzfer függvénnyel. 
A kimeneti rétegben egyetlen neuron található lineáris transzfer függvénnyel. 
A tanítás konjugált gradiens back-propagation eljárással, Fletcher-Reeves- 
formulával történt. MLP2-ben két rejtett réteg van, mindkettőben 21-21 
neuron. Az első rétegben logisztikus, a másodikban tangens hiperbolikus 
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3.9. ábra. Az f(x) — 33? 4 3x— 1 függvény megfelelő 
közelítése MLP-vel (mérési hibák esetén) 
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3.10. ábra. Az f(x) — 5174 31— 1 függvény közelítése 
(mérési hibák esetén). MLP1 és MLP2 túl sok neuron, 
túlillesztett 


transzfer függvényt használunk. A kimeneti rétegben egyetlen neuron talál- 
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ható lineáris transzfer függvénnyel. A tanítás Levenberg-Marguardt back- 
propagation eljárással történt. Mindkét utóbbi hálózatnál a legkisebb négy- 
zetes hibát leszorítottuk. 


3.5. Példa. Két halmaz szétválasztása MLP segítségével megvalósítható. 
Legyen az egyik halmaz 100 elemű minta kétdimenziós, (0,0)! várható érték 


vektorú és 
08 0 
0 0.8 


szórásmátrixú normális eloszlásból. A másik halmaz pedig ugyanilyen minta, 
azzal a különbséggel, hogy ott a várható érték vektor (2,2)!. A 3.11. ábra 
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3.11. ábra. Két normális eloszlás szeparálása MLP-vel. 
A rész: túl sok neuron, rosszul általánosít. B rész: meg- 
felelő számú neuron, jól általánosít 


mind A, mind B részén x jelöli az első, o pedig a második halmaz eleme- 
it. Azonban a megkonstruált elválasztó görbék különböznek. Az A részen 3 
rejtett rétegű MLP szeparálása látható. Az első rejtett rétegben 6 neuron 
van logisztikus, a másodikban 20 neuron szintén logisztikus, a harmadikban 
pedig 2 neuron tangens hiperbolikus transzfer függvénnyel. A kimeneti ré- 
tegben 1 neuron van tangens hiperbolikus transzfer függvénnyel. A tanítás 
konjugált gradiens back-propagation eljárással, Fletcher-Reeves-formulával 
történt. Az elválasztó görbe a tanító pontokat helyesen szeparálja, azonban 
rosszul általánosít. Hiszen tudjuk, hogy esetünkben a két normális eloszlást 
optimális módon egy egyenes osztaná ketté. Az ábra B részén lévő szeparálás 
azért sokkal jobb, mert ugyan az aktuális tanító pontokat nem tökéletesen 
osztja ketté, azonban jól általánosít. Ezt az eredményt két rejtett réteggel, 
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azokban 5, ill. 3 neuronnal értük el. Az első rétegben logisztikus, a második- 
ban pedig tangens hiperbolikus transzfer függvényt használunk. A kimeneti 


rétegben egyetlen neuron található lineáris transzfer függvénnyel. A tanítás 


Levenberg-Marguardt back-propagation eljárással történt. 


3.6. Feladatok 


1. 


Határozzuk meg a tangens hiperbolikus aktivációs függvény deriváltját! 
Ez alapján számítsuk ki az MLP lokális gradiensét mind az output ré- 
tegben, mind a rejtett rétegekben! 


. Rajzoljuk fel a 3.1. Tételbeli egy rejtett rétegű perceptront! 


Igazoljuk a 3.1. Tételt a Stone-Weierstrass-tételre visszavezetve! 


Oldjuk meg MLP-vel a, 2. fejezet feladatai között definiált XOR-problé- 
mát! 


. Közelítsük az alábbi függvényeket MLP segítségével! 


f()— a, — f(m)—logz, — f(x)y—sinx, — f(x) — (sinx)/r, 


f(xy)— 2? ay, — f(2y)—29/y. 


Válasszunk alkalmas tartományt, ahol a fenti függvényeket közelíteni 
akarjuk! Generáljunk különböző számú és sűrűségű tanító pontokat! Vizs- 
gáljuk külön azt az esetet is, amikor a függvényértéket csak valamilyen 
véletlen hibával tudjuk megfigyelni (azaz a tanító pontok ilyenek, de a 
közelítendő függvény a hiba nélküli)! Alkalmazzunk különböző rejtett ré- 
teg számú, ill. különböző neuron számú és transzfer függvényű MLP-ket! 
Ábrázoljuk az eredményt! 


Vizsgáljuk az MLP-vel való szeparálást! Állítsuk valamilyen módon elő 
a tanító pontok A és B halmazát, és szeparáljuk MLP-vel! A két halmaz 
lehet 2- vagy 3-dimenziós, véletlen vagy determinisztikus módon meg- 
adott, akár egymásba átnyúló is. Alkalmazzunk különböző rejtett réteg 
számú, ill. különböző neuron számú és transzfer függvényű MLP-ket! 
Ábrázoljuk az eredményt! 


Vizsgáljuk az MLP-vel való szeparálást 3 halmaz esetén! Szeparáljunk el 
egymástól 3 síkbeli halmazt! Ábrázoljuk az eredményt! 


4. fejezet 
A radiális bázis függvények 


A radiális bázis függvények hálózata (Radial Basis Function Network, RBF) 
rokonságban áll a matematika számos konstrukciójával. A feladat minden 
esetben az, hogy bizonyos függvényekből kiindulva adjuk meg egy olyan 
függvény közelítését, amelynek alakjáról (képletéről) nem tudunk előzete- 
sen semmit, de vannak rá méréseink. A kiinduló függvényeket alap függvé- 
nyeknek (más területen magfüggvényeknek) szokás nevezni. A radiális bázis 
függvény olyan alap függvény, melynek értéke bizonyos középponttól való 
távolságtól függ csupán. 

Ebben a fejezetben bevezetésképp szó lesz a radiális bázis függvényekkel 
történő interpolációról (ez a numerikus matematika fontos feladata). A ra- 
diális bázis függvények hálózatát viszont (büntető függvénnyel kiegészített) 
legkisebb négyzetes módszerrel fogjuk megkapni. Tárgyalni fogjuk a statisz- 
tika egyik alapvető eszközét, (az RBF-fel rokon) magfüggvényes becslést is. 
Megjegyezzük, hogy az RBF nem csak függvény közelítésre, hanem osztá- 
lyozásra is használható. Ebben a fejezetben is főként Haykin [18] könyvére 
támaszkodunk. 


4.1. A szeparálás Cover-féle elmélete 


Számos hálózat (bizonyos típusú MLP, RBF, SVM) a következő séma, sze- 
rint épül fel. Az adatokat nem-lineáris transzformációnak vetjük alá a rejtett 
rétegben (ahol sok neuron található) viszont az output rétegben csak lineá- 
ris transzformáció van. Ennek elvi hátterét világítja meg Cover szeparálási 
elmélete. 

Tekintsünk egy osztályozási problémát. A nem-lineáris szeparáláshoz bo- 
nyolult hálózatot kell építenünk (MLP), viszont a lineáris szeparálás egyet- 
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len neuronnal (perceptronnal) is elvégezhető. Vissza lehet-e vezetni a nem- 
lineáris szeparálást lineárisra? Látni fogjuk, hogy ez alkalmas transzformá- 
cióval megtehető. 

A linearizálás valójában általános eszköz a feladatok numerikus meg- 
oldására. A számítógépek elterjedése előtt a szorzás és osztás elvégzésére 
használt , logarléc" is ilyen elven működött. Szintén a logaritmus függvény 
tulajdonságain alapuló példa az alábbi. 


4.1. Példa. A Newton-féle gravitációs törvény alapján két, egymástól r 
távolságra lévő, mi és m2 tömegű test közötti gravitációs erő: 


mima 
A , 





f(mi,m2,r)—C 


T 


ahol C pozitív konstans. Mindkét oldal logaritmusát véve 
log f(mi1, m2,r) — log C 4 log mi -- log mea — 2logr . 


Tehát a szereplő mennyiségek logaritmusa között már lineáris a függvény- 
kapcsolat. 


Cover [7] cikkében javasolta, hogy nem-lineáris transzformációval vigyük 
át a feladatot magasabb dimenzióba. Cover eredményét az alábbi népszerű 
formában szokták emlegetni (lásd Haykin [18]). , Egy osztályozási problémát 
nem-lineáris módon magas dimenziós térbe átvíve, nagyobb a valószínűsé- 
ge, hogy lineárisan szeparálható lesz, mint alacsony dimenzióban." Tehát 
a bemeneti vektorokat át fogjuk transzformálni magasabb dimenziós térbe, 
ott pedig egy hipersíkkal választjuk el az osztályokat. Ezt az eljárást fogjuk 
később az SVM esetén is alkalmazni. 

Legyen H a tanító pontok N-elemű halmaza: H — (x1,..., tv). Ezt a 
halmazt kell a diszjunkt A és B részhalmazokra felbontani (két részre osztás, 
(A, B)-dichotómia). Legyenek a tanító pontok mo-dimenziósak. Definiáljuk 
a p(x) vektor értékű függvényt (aminek tehát a komponensei valós értékű 
függvények) az alábbi módon: 


plz) — (ormon la)" ; ze R"". 


Azaz p leképezés az mo-dimenziós és az m1-dimenziós euklideszi terek kö- 
zött. Az előzőek értelmében általában mi — mo. Azt mondjuk, hogy a p 
függvény a tulajdonságok terébe (feature space) transzformálja a problémát. 


4.2. Definíció. Azt mondjuk, hogy a H halmaz (A, B)-dichotómiája p- 
szeparálható, ha létezik egy m1-dimenziós w vektor úgy, hogy 


w"p(m) 50, ha xed4A, 
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w"p(m) c0, ha xeB. 
Ekkor a szeparáló felület egyenlete 
w" p(r) —0 
alakú. 


Cover fenti állítása szerint a dimenzió növelésével növekszik a lineáris 
szeparálhatóság valószínűsége. Határozzuk meg, hogy mennyi a valószínű- 
sége annak, hogy az m1-dimenziós térben egy N elemű halmazt lineárisan 
ketté tudunk választani. 

Tegyük fel, hogy a 9(x1), p(x2), . . . , P(zN) mi1-dimenziós vektorok ál- 
talános helyzetűek, azaz közülük bármely mi számú (vagy m1-nél kevesebb) 
lineárisan független. Ekkor a p(x1), 9(x2), . . . , P(zn) pontoknak 


3 ES ö (4.1) 


számú olyan kettéosztása van, amely (origón átmenő) síkkal valósítható meg. 
Ez a tétel Cover [7] cikkében található (de a szerző felsorolja, hogy korábban 
mely művekben szerepelt ugyanez az állítás). Lásd még [28]. 

Tegyük fel most, hogy az x1, 12,..., tn pontok 29 számú lehetséges 
kettéosztásának (dichotómiájának) mindegyike egyformán valószínű. Jelölje 
P(N, m1) annak a valószínűségét, hogy az N-elemű H halmaz egy véletlen- 
szerűen kiválasztott dichotómiája p-szeparálható (azaz 1p(x1), p(x2), . . . , 
p(xwN)) az m1-dimenziós térben lineárisan szeparálható). Tegyük fel szintén, 
hogy a p(x1), p(x2), . . . , pP(tN) pontok általános helyzetűek. 

A (4.1) képlet alapján a valószínűség klasszikus kiszámítási módja szerint 


Sen ő 


P(N, m1) — 9N-1 


(4.2) 


A felület szeparáló képessége 


P(N, m1) fenti (4.2) képletét fix pontszám (azaz N) esetén a dimenzió (azaz 
m1) függvényében tekinthetjük mint eloszlásfüggvényt. Ez természetesen a 
binomiális eloszlás eloszlásfüggvénye. Mint ilyen, monoton növekvő: 0-ról 
felnövekszik 1-re. Azaz a lineáris szeparálhatóság valószínűsége növekszik 
a dimenzió növelésével. mi 2 N esetén P(N, m1) értéke 1. Ezt ábrázoltuk 
a 4.1. ábrán, azaz a valószínűségek változását a tanító pontok rögzített száma, 
esetén. 


62 4. fejezet. A radiális bázis függvények 








P(100m,) 
1 Ci 
0.5 És 
[0] e L ő L 
0 20 40 60 80 100 


4.1. ábra. A lineáris szeparálhatóság a dimenzió függ- 
vényében: P(N, mi), amikor N — 100 


Sokkal tanulságosabb azonban a 4.2. ábra. Ebben az esetben a dimen- 
ziószámot rögzítettük, és a tanító pontok számát növeltük. A 4.2. ábrán 
látható, hogy a lineáris szeparálhatóság valószínűsége csökken a tanító pon- 
tok számának növelésével, sőt 0-hoz tart. 


Tá P(N,50) 
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4.2. ábra. A lineáris szeparálhatóság a tanító pontok 
számának függvényében: P(N, mi), amikor mi — 50 


Most tehát rögzítsük a tér (pontosabban szólva a feature space) mi di- 
menzióját. Legyen x1, r2,... egy olyan sorozat, melyre minden rögzített 
n esetén p(£1), . . . , P(xtn) általános helyzetű, továbbá p(1), . . . , P(xn) di- 
chotómiái legyenek egyforma valószínűségűek. Jelölje € a legnagyobb n egész 
számot, melyre £1, 22, . . . , tn egy (véletlenszerűen választott) kettéosztása 
$-szeparálható. Ekkor 


P(£ — n) — P(n, mi) — P(n 4 1, mi) — G) 6 (4.3) 


mi-1 
n — mi, mid 1,.... Ennek levezetése az alábbi: 
1 [E /n-1 a (n 
P(n,m) — Pín4.1.m) — 2 j b8 ( i )- B ő iz 





. TEökeE Tt ( Ge) hi 1 7 a 1) s 
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ü ( Mn jj Ékes ii a 5) ) kis ( C o ) ji ú j] I 


Itt minden kapcsos zárójelben lévő kifejezés 0, tehát az eredmény ar TÁBÁDA B 
A (4.3) képlet pedig az mi és 1/2 paraméterű negatív binomiális eloszlás. 


Ennek a várható értéke 














E(6) — 2m1, 





a szórásnégyzete 











2(€) — 2m1. 


Így megkaptuk Cover [7] eredményét: , Az m1-dimenziós térben a lineárisan 
szeparálható véletlen minta maximális elemszámának várható értéke 2m17. 
Ez az eredmény összhangban van a Vapnik-Chervonenkis-dimenzióval. 





4.2. Interpoláció radiális bázis függvényekkel 
Legyen adott az N számú, egymástól különböző elemből (alappontból) álló 
(x; € R"9 : 1—1,2,..., N) 
halmaz, valamint a szintén N elemű 
(dzeR : 1—1,2,..., N) 
halmaz. Keressünk egy olyan F: R"9 6 R függvényt, ami eleget tesz az 
F(x) — d:, Ez I 2zsoz AN (4.4) 


feltételeknek! Ez az interpoláció általános feladata. 

A jól ismert Lagrange-féle interpoláció esetén az x; — x; alappontok va- 
lósak, és F-et a polinomok közül választjuk. Nevezetesen, mindig találhatók 
olyan wxk együtthatók, hogy F(x) — Sabre wrx" kielégíti a (4.4) feltételt. 
Még pontosabban szólva: N alappont esetén található pontosan egy, legfel- 
jebb (MW — 19-edfokú polinom, mely az alappontokon az előírt értékeket veszi 
fel. 

Hatványfüggvények helyett más függvények lineáris kombinációival is in- 
terpolálhatunk, pl. trigonometrikus függvényekkel, vagy az alább bevezeten- 
dő radiális bázis függvényekkel. 

A (e(llx— x;II) : 7— 1, 2, . . . , Ny alakú függvényeket radiális bázis függ- 
vényeknek (radial basis function, RBF) nevezzük. Itt Í[.I] az euklideszi norma. 
Az elnevezés arra utal, hogy a e(Ilx— x;II) alap függvény az r; középpontból 
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kiindulva sugár irányban változik. Itt p-t egyelőre tetszőleges függvénynek 
tekinthetjük, természetesen jó tulajdonságokat bizonyos függvényosztályok- 
tól várhatunk. A radiális bázis függvények vizsgálata a matematikai analízis 
klasszikus területe, egy összefoglalása Buhmann [4] monográfiájában talál- 
ható. 

Az RBF-interpoláció tehát a következő alakú F függvény választásából 
áll (lásd pl. Powell [38]) 


N 
P(x) — 2 wje(llz— 2] (4.5) 
j—1 
ahol [].II az euklideszi norma, w;-k az ismeretlen súlyok, p pedig általunk 


választott (általában nem lineáris) függvény. A (4.4) feltételek teljesülését 
egyszerű behelyettesítéssel ellenőrizhetjük a (4.5) alakú függvényekre. Így 
kapjuk a 
PIL  -.. PIN W1i1 di 
: : - [ : (4.6) 
PNI 2. 9NNJ MUN dN 
lineáris egyenletrendszert, ahol 
pij — elle — z;ll) te) ed 2ssesilN 
Legyenek 
d — (di, do, . . j ,dn) , 
W — (W1, Wa, . . . , UN 
N-dimenziós vektorok, és 
B — (6ij § 2 edes za NM 


N x N-es mátrix. $-t interpolációs mátrixznak nevezzük. Ezekkel a jelölések- 
kel a (4.6) egyenletrendszer: 
B$w — d. 


Az ismeretlen w meghatározása ebből 
w — 6-1d. 


A (4.6) egyenletrendszer akkor és csakis akkor oldható meg minden d kons- 
tans vektor esetén, ha $ invertálható. 

Számos függvény, illetve függvényosztály esetén bebizonyították, hogy $ 
invertálható (lásd pl. Micchelli [31], Buhmann [4]). 
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4.3. Definíció. Legyen g a pozitív valós számokon értelmezett valós érté- 
kű, tetszőleges sokszor differenciálható függvény. g-t teljesen monotonnak 
nevezzük, ha deriváltjaira (—1)!g0(r) 2 0 teljesül minden pozitív x és l — 
0 152... esélén 


4.4. Tétel. Legyen g teljesen monoton és nem konstans, p(x) — g(x?). 
Legyenek az (x; € R"" : 1— 1,2,..., N) alappontok páronként különbözőek. 
Ekkor a $ interpolációs mátrix pozitív definit. 


4.5. Tétel. Legyen g a pozitív valós számokon értelmezett valós értékű, tet- 
szőleges sokszor differenciálható olyan függvény, melyre g" teljesen mono- 
ton, de nem konstans, p(xm) — g(x?). Legyen g(0) 3 0. Legyenek az (x; E 
e R"9 : i — 1,2,..., N) alappontok páronként különbözőek. Ekkor a $ in- 
terpolációs mátrix nem szinguláris. 


Például az alábbi o függvények esetén az interpolációs mátrix mindig 
invertálható, amennyiben az x; tanító pontok páronként különbözőek. 


(1) Multikvadratikus: 
v(m) — (222, TER, 
ahol c 5 0 rögzített paraméter. 


(ii) Inverz multikvadratikus: 


1 
p(z) — , teR, 
(x2 3 2) 





ahol c 5 0 rögzített paraméter. 


(iii) Gauss-függvény: 


72 
ola) — exp (- 1; xeR, 


292 
ahol c 5 0 rögzített paraméter. 


Az RBF-interpolációt neurális hálózattal is megvalósíthatjuk. Tekint- 
sünk egy olyan hálózatot, aminek a bemenete mo-dimenziós, és legyen csak 
egyetlen kimeneti neuron. A bemeneti és a kimeneti réteg között pedig ve- 
gyünk egyetlen rejtett réteget. A bemeneti és a rejtett réteg között nem 
lineáris, viszont a rejtett és kimeneti réteg között lineáris kapcsolatot ala- 
kítunk ki. Pontosabban szólva, az x input jelre a rejtett rétegbeli i-edik 
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neuron adja a p(Ilz — x:]I) outputot, a kimeneti rétegbeli neuron pedig ezek 
F(x) — So w.p(Ilx — xzID) súlyozott összegét. Ekkor a hálózat tulajdon- 
képpen egy olyan függvényt valósít meg, amely az mo-dimenziós térből az 
1-dimenziós térbe képez. Az RBF hálózatok azonban nem közvetlenül a fen- 
ti interpolációs sémát követik, hanem a legkisebb négyzetek elvét, amelyet 
ráadásul büntető függvények alkalmazásával teszünk a modell iránt érzéke- 
nyebbé. 


4.3. A Tyihonov-féle regularizáció 


Az RBF hálózat kialakításához a regularizáció elmélete nyújt elméleti ala- 
pot. A matematikai levezetés azonban csupán egy sémát szolgáltat, amelyet 
a neurális hálózat tényleges alkalmazásához számítógépes (kísérleti) úton 
konkretizálhatunk. 

Haykin [18] szóhasználatát követve, direkt problémának tekintjük azon 
fizikai, kémiai, biológiai jelenséget, amely az adatokat produkálja. Inverz 
problémának pedig az adatokból a jelenség rekonstruálását. Ismeretes, hogy 
az inverz problémák gyakran rosszul felállítottak. 

A rosszul felállított problémák (ill-posed problem) megoldására Tyihonov 
a regularizációt javasolta, lásd Tyihonov [46], Tyihonov-Arszenyin [47]. Az 
alábbi definíció Kabanikhin [22] cikkéből származik. 


4.6. Definíció. Legyenek 0 és § topologikus terek, A: 9 0 § pedig egy 
adott operátor. Az Ag — f problémát (Hadamard-féle értelemben) jól felál- 
lított inverz problémának (well-posed) nevezzük, ha az alábbi három feltétel 
teljesül. 


(i) Egzisztencia. Bármely f € S esetén létezik Ag — f-nek ge megoldása. 


(ii) Unicitás. A fenti ge egyértelmű megoldása Ag — f-nek (azaz az A"! 
inverz létezik). 


(iii) Folytonosság (stabilitás). Az A7! inverz folytonos. Ez utóbbi metrikus 
terek esetén azt jelenti, hogy bármely € 5 0-hoz létezik ó 5 0 úgy, 
hogy ha d1(fi, f) c ő, akkor do(4A7! fi, A71f) c e. Itt di és do a két 


térben a távolság. 


Azt a problémát, amely nem teljesíti mindhárom fenti feltételt, rosszul fel- 
állított inverz problémának nevezzük. 


Rosszul felállított inverz probléma például egy nem invertálható mátrixú 
lineáris egyenletrendszer megoldásának keresése. 
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4.7. Példa. Rosszul felállított direkt probléma például a differenciálás. Le- 
gyen g(x) — f(x) és tegyük fel, hogy f(x)-et csak egy kis perturbációval 
ismerjük: fn(xr) — f(x) - sin(na)/vn. Ekkor fn — f teljesül, azonban az 
fn deriváltja gn(x) — g(x) 4 vVn cos(nx), aminek a, távolsága g-tól a o0-hez 
tart. 


4.8. Példa. Rosszul felállított inverz probléma a Laplace-féle differenciál- 
egyenletre vonatkozó Cauchy-probléma. Legyen u(x, y) a következő problé- 
ma megoldása. 


Itt 


a Laplace-operátor. Legyen 


E. 
f(y) — 7 sin(ny). 
Ekkor a fenti probléma megoldása (lásd a Feladatok között) 


l . 
ula,y) — 7 sin(ny — 


Minden 2 5 0 esetén, n-et elég nagynak választhatjuk ahhoz, hogy f tetsző- 
legesen kicsi, míg u tetszőlegesen nagy legyen. 


A rosszul felállítottság a mi jelenlegi szempontunkból azt jelenti, hogy 
egy nagy adathalmaz meglepően kevés információt hordoz az azt generáló 
jelenségről. Azok a fizikai folyamatok, amelyek a tanító pontokat (pl. beszé- 
det, képet, radar jelet, stb.) generálják, jól felállított direkt problémák. Tehát 
folytonos leképezést valósítanak meg. Azonban ezen folyamatok eredménye- 
iből vett minták alapján tanulni már rosszul felállított inverz problémákat 
jelentenek. Gondoljunk csak arra, hogy egy zajos felvételből vagy egy csú- 
nya kézírásból milyen nehéz az eredeti közleményt helyreállítani. 1963-ban 
Tyihonov javasolta a regularizációs eljárást a rosszul felállított problémák 
kezelésére. 

Legyenek 

TERT 9 SET 2 ez 
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az input vektorok, 
d;eER, i—1,2,..., N, 


pedig a megfelelő output értékek. Keressük azt az F: R"9 6 R függvényt, 
mely az x; pontokban jól illeszkedik a d; értékekre. 
A Tyihonov-féle regularizáció elmélete szerint az illeszkedés jóságát az 


alábbi hibatagokkal mérjük. 
(1) Standard hiba: 


4. N 
é(P)—; 2 (d —w— 9 [dd— F(a)j? 
1—1 1-1 


(ii) Regularizációs tag: 


1 
£(P) — 5 IDFIR. . 


Itt D egy lineáris differenciál-operátor. Nevezetesen D a négyzetesen in- 
tegrálható F: R"9 6 R függvények egy H Hilbert-terén értelmezett, azaz 
D: H c H operátor. Továbbá IIJDFIIA, ezen a H téren a DF függvény 
norma-négyzete. Az F függvény a (H,(: , u) függvénytérnek (számunk- 
ra ismeretlen) eleme. D tartalmazza a problémáról az előzetes információt. 
€-(F)-t szokták büntető függvénynek (penalty function) nevezni. Ez stabili- 
zálja a megoldást, ill. bünteti a túl bonyolult modellt. 
Tehát minimalizálni kell az alábbi kifejezést: 


N 
E(P) — €(P) EP) Vt — Pad? ZANDFIÁ, (4.7) 
i—1 
ahol A 5 0 a regularizációs paraméter. Ha A-t kicsinek választjuk, akkor főleg 
a tanító pontok határozzák meg az FX megoldást. Ha viszont A-t nagynak 
választjuk, akkor a modellről szóló előzetes információk lesznek döntőek. 
€(F)-et pedig Tyihonov-funkcionálnak nevezzük. Jelöljük £E(F) minimum- 
helyét FM-val. 
Az F, helyen az £(F)-nek akkor van minimuma, ha 


E(FX £ E(Fx 3 Bh) 


tetszőleges h függvény és 8 skalár esetén. Azaz bármely h e H irány menti 
deriváltnak nullának kell lennie az FX pontban. Tehát 


d 
Ét -k 8] e —0, 
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ahol Ah tetszőleges, rögzített, nem nulla függvény. 


Ebből (4.7) alapján: 


0— [aze a 80] Hl 
APA] AB 


agéelm er 8) ; (4.8) 


7 [ás § 


Határozzuk meg tagonként a deriváltakat. 


8-0 


d s1ld Su A 412 va 
258 (Pa 60] eg B £33 [di — F(x) — Bh(x)] [.. z 


N N 
szg [s lee MAGEs TT AGEGdT sp [docAuuhhhán e 
i—1 79 i—1 


szé N 
sz - fa 82. (4 — F(x))h(m)őz, (2) de — — (da tés PJösv) , (4.9) 
H 


11 1-1 
ahol ( . , .). a H. Hilbert-térbeli belső szorzat, 
öz. (a) — öl — a) 
és ó a Dirac-delta. A regularizációs tag deriváltja: 
ks 
dB 
És l D[F(a) 4 Bh(a)]Dh(x) da] - 
R"o 8-0 


- (  DF(x)Dh(w)de—(Dh,DFYx. — (4.10) 
R"o 


€(F 7 am] z 5 l 


(DFC) - eapzas] 


E d a 
db 8-0 


A második lépésben felcseréltük a deriválást és az integrálást. Jelölje DaD 
operátor adjungáltját. Így a (4.10) egyenlőségből 


(Pa 89] — (Dh, DFYw — (h, DDFY4. (4.11) 


E 
dB ásó 


A (4.9) és a (4.11) eredményeket visszahelyettesítve a, (4.8) egyenletbe: 


N 
7 Mh,DDF)u 74 (Söt 78 Főv) ; 
H 


1-1 
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eposzát] et 


Mivel ennek minden A-ra teljesülnie kell, így ez akkor lesz nulla, ha a belső 





azaz 


DDF — 





ke 





szorzat második tagja nulla, azaz 


DDF — (di — F)Jőz; — 0, 


pedi Ül 


ai 


ás 
II 


tehát 


1 N 
DDF(x) — 5 2. (di — Jö(x — ax). (4.12) 


Tehát ezen egyenlőség teljesülése esetén lesz a derivált nulla. A (4.12) egyen- 
letet nevezzük a Tyihonov-funkcionálra vonatkozó Euler-Lagrange-egyenlet- 
nek. Ez az egyenlet tulajdonképpen egy parciális differenciálegyenlet F-re, 
lévén DD egy differenciáloperátor. 

A differenciálegyenletek elméletéből szükségesek a következők. Legyen 
adott egy L lineáris differenciáloperátor, és tekintsük az 


LF(x) — P(x) (4.13) 


differenciálegyenletet. Legyen G(x, €) olyan függvény, amelyben r paramé- 
ter, € pedig az argumentum (z és € is vektor), és amely eleget tesz az alábbi 
feltételeknek. 


(i) Rögzített € esetén, r függvényeként G kielégíti az előírt határfeltéte- 
leket. 


(ii) Az z — É pont kivételével a G(x, €) függvény x szerinti deriváltjai 
folytonosak (a deriváltak rendje az L differenciáloperátor által megha- 
tározott). 


(iii) G(x, €) az z függvényeként kielégíti az 
G(r,§) —0 


parciális difflerenciálegyenletet az zt — É pont kivételével, ahol szingu- 
laritása van. Azaz kielégíti az 


LG(x,§) — ö(z — §) 


egyenletet, ahol ó(m — €) a € középpontú Dirac-féle delta-függvény. 
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Ezt a G(x, €) függvényt nevezzük az L differenciáloperátor Green-függvényé- 
nek. 
Ez alapján a (4.13) egyenlet megoldása 


F(z) — G(x, §)P(€) d8. (4.14) 


R"o 


Valóban, L-et és az integrálást felcserélve 


LF(z)—L G(x, §)P(§) d€ — LG(r,§)p(§) d8. 


R"oO R"O 


A Green-függvény harmadik tulajdonsága alapján 


LF(m)— [ől — €)o(é) de 


adódik. Végül a Dirac-delta tulajdonsága alapján kapjuk, hogy 


Tehát igazoltuk a (4.14) egyenlőséget. 
Most térjünk vissza a (4.12) Euler-Lagrange-egyenlethez. Az 


Be 1 A 
L- DD, MInt (x))ó(z — x;) 


választással a (4.14) egyenlőségből: 


j E 
F(a) — j ; Gta.6) [Yar Fin)óté— 29) dé — 
§ i—1 


54 F j(s; ) f., Gt. 08(£— a) ae 
A ear (A mirő , KA Hi 


Itt G az L— DD-hez tartozó Green-függvény. 
Végül az Euler-Lagrange-egyenlet megoldását a Dirac-delta függvény tu- 
lajdonságát felhasználva kapjuk: 





N 
7 zzzls S[FTSRAN G(x, a). (4.15) 


ÉT 
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Tehát ha adottak az (g;, d;), i — 1, . . ., N, tanító pontok, a G Green- 
függvény, a A regularizációs paraméter, akkor az € Tyihonov-funkcionál mi- 
nimumát adó F) függvény kielégíti a (4.15) egyenletet. 

Most ennek az egyenletnek a megoldását keressük. Legyen 


1 
w — ld— P(x], i1—1,2,..., N, (4.16) 


és 
w — (Ww1, Wa, . . ., WN) ! . 


Tehát minden w; súlyhoz tartozik egy (FX(x), d:) pár. A w; súlyok megha- 
tározása az alábbi. A (4.15)-be xj-t helyettesítve, és figyelembe véve a (4.16) 
egyenlőséget: 


N 
Flzj eg etés, Et za (4.17) 
ez 


Vezessük be az alábbi N-dimenziós vektorokat 


F4 — (FxX(ax1), FX(a2), ..., FX(xn)) , 
d — (di, da, ...,dn)" , 


valamint az alábbi N x N-es mátrixot 


G(x1,€1) ... G(x1,£nN) 
G — : És : 
G(tN,x1) ... G(tN,tN) 


G az úgynevezett Green-mátrirx. Tehát a fenti (4.16) és (4.17) egyenletek 
vektoros-mátrixos alakja 


ta 


(d— F)), F.1— Gw. 


sz 


Ezekből 
(G FAIT) w — d, (4.18) 


ahol I az N x N-es egységmátrix. 
A Green-függvények szimmetrikusak. (Ezt az alábbi módon igazolhatjuk. 
Az L — DD operátor önadjungált. Így a hozzá tartozó G Green-függvény 
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szimmetrikus. Valóban, a Green-függvény tulajdonságai miatt G(€,y) — 
— f G(m, €jö(z— y) de — G(y, €).) Tehát a G mátrix is szimmetrikus lesz: 


G(x, tj) — G(xj, xi) Vi,j, 


azaz G—G!. 

A 4.2. szakasz alapján láthatjuk, hogy a G Green-mátrix hasonló funkciót 
tölt be, mint a $ interpolációs mátrix (A — 0 esetén pontosan olyat). Az 
inverz multikvadratikus és a Gauss-féle radiális bázis függvények a Micchelli- 
tétel hatáskörébe eső Green-függvények, de a multikvadratikus nem ilyen 
(lásd [18]). 

Elegendően nagy A esetén G -- AI pozitív definit, tehát invertálható. 
Ekkor a fenti (4.18) egyenletrendszer megoldása: 


w — (G AI) d. (4.19) 


Ezen w-t beírva a (4.15) egyenletbe, kapjuk a regularizációs probléma meg- 
oldását: 





N 
F.(x) — 3 wiG(x, a) [. (4.20) 
1-1 











Ez a megoldás valójában csak akkor alkalmazható, ha nemcsak az 2; 
bemeneti és d; kimeneti adatok, hanem a G Green-függvény és a A paramé- 
ter is adott. Valójában magát a Green-függvényt nekünk kell megválasztani. 
Hiszen nem áll előzetesen rendelkezésre a probléma leírásához a D diffe- 
renciáloperátor. Így bizonyos probléma típusokhoz a tapasztalatok alapján 
kialakult Green-függvény típusok közül kell választanunk. Erre utaltunk ko- 
rábban, amikor a matematikai elmélettől csak a megoldás sémáját reméltük, 
a konkrét megoldást azonban számítógépes kísérletektől vártuk. 

A G eltolásinvariáns (transzláció invariáns) volta azt jelenti, hogy G csak 
az adott pont és a középpont különbségétől függ: 


G(x, x;) — G(x — a) . 


Ha G eltolásinvariáns és forgatásinvariáns (rotáció invariáns) is, akkor G 
csak x és x; távolságától függ: 


G(x, xi) — G(x — zi): 
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Ezen feltétel teljesülése esetén nevezzük G-t radiális bázis függvénynek (ra- 
dial basis function). Ekkor a regularizációs probléma megoldása az alábbi 
alakú: 





N 
Fx(z) — X wG(Ilz — az]]) [- (4.21) 
2-1 











A (4.21) és a (4.5) képletek közötti analógia világos. A különbség az, hogy 
a (4.21) képlet a büntető tag által regularizálva van. 


4.9. Példa. A statisztikából ismert többdimenziós normális eloszlás sűrű- 
ségfüggvénye rendelkezik a magfüggvények definiáló tulajdonságaival. Ami- 
kor pedig a szórásmátrix az egységmátrix skalárszorosa, akkor transzláció és 
rotáció invariáns Green-függvényhez jutunk: 


1 
EE Séő (sze si al?) I 
207 


ahol r,xz; € R"9, o; 5 0. Ez valójában az Nno (xi, 021) eloszlás sűrűség- 
függvényének a skalárszorosa. Ez az 


L — (—D tant 
n7-0 


differenciál operátorhoz tartozó Green-függvény, ahol an — af? /(n12"), v? 
pedig a 
0xr3 023 OT o 





Laplace-operátor n-szeres iteráltja (lásd [18]). 


4.3.1. A regularizációs hálózat 


A (4.20) képlet alapján megadhatjuk a regularizációs probléma megoldásá- 
nak neurális hálózatát (4.3. ábra). Itt három réteg van. A rejtett réteg nem 
lineáris. A rejtett rétegbeli neuronok száma pontosan annyi, amennyi tanító 
pontunk van, azaz N. Ezek a csomópontok tartalmazzák az x; középpon- 
tú Green-függvényeket. A kimeneti réteg ábránkon egyetlen lineáris neuron. 
Általában tetszőleges véges számú neuron lehet benne a konkrét problémá- 
tól függően (az osztályozás esetén az osztályok száma, függvényközelítésnél 
pedig a képtér dimenziója). 
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Input A Green-függvények Output 
réteg rejtett rétege réteg 





4.3. ábra. A regularizációs hálózat sémája 


4.4. Az általánosított RBF hálózat 


A regularizációs hálózatnál pontosan annyi neuron van a rejtett rétegben, 
ahány tanító pont. N számú tanító pont esetén viszont a Green-mátrix N x 
x N-es mátrix. Így az inverzének meghatározása N? nagyságrendű műveletet 
igényel. 

A számolások egyszerűsítése érdekében redukáljuk a hálózatot. Legyen 
az új dimenzió mi. Ezen neurális hálózat sémáját mutatja a 4.4. ábra. Ez 
hasonló a regularizációs hálózathoz, azonban a rejtett réteg neuronjainak 
száma csak mu1 (illetve az ábrán m1 -- 1, mivel a nulladik a többrétegű per- 
ceptronnál már megismert torzítás, amit p — 1 bázis függvény választással 
kezelhetünk). 

Az 


Feje wipe) (4.22) 
1-1 


alakú függvények között keressük az optimálisat. Itt mi cx N, továbbá 
(e:(z) : 1— 1,2,..., mi) a bázis függvények új halmaza. p; függvényeknek 
válasszunk radiális bázis függvényeket: 


pi(xr) — G(x, t;) — G(llx — til). i1—1.2,.... mi, 
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ahol (ft; : íi — 1,2,..., mik az új középpontok halmaza. Ezen esetben 
a (4.22) képlet: 
mi 
— 9 wG(Ilz — t:lD. (4.23) 
i—1 
Az új (w; : 1— 1,2,..., mi) súlyokat úgy kell meghatározni, hogy minima- 
lizáljuk az E(F") Táhónoyztnkciónálk. 
jee út A 
- BETA (4 — )  wiG(IIgj — t; p) 4 SDP IZ. (4.24) 
j—1 i—1 








lw j j 
Input A radiális bázis Output 
réteg — fijggvények rejtett rétege réteg 





4.4. ábra. Az RBF hálózat sémája 


A jobb oldal első tagjának kétszerese 


Id— GwlIP, 
ahol 
d — (di, do, ...,dwn)" , w — (wi, Wa, . . . , Wm) 
és 


G(21, ti) ... G(T1, tm) 
G — : "e. § 
G(xn,ti) BAZE G(AN , tm) 
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A második tag (a A/2 elhagyásával) 


mi mi 
IDF (DF DF" — 93 mat) DD uta19 ) sa 
A 


i—1 i—1 
— 38 97 WWj (G(x, t,), DDG(a, ba . 
i—1 j—I1 


Mivel G éppen a DD operátor Green-függvénye, ezért DDG(x, £) — ő(z — 
AE ÁGY 


(a(z, ti), DDG(z, tj) ) — f ez tdöla — tj) da — G(tj, t;). 


A fentiek alapján 


mi mi 
IDFILL— YA wiwjG(ti, tj) — w! Gow, 
i1—1 j—1 
ahol 
G(ti,ta)  ...  G(ti,tm) 
Go — : ta. : 
G(tmi, ti) ezen G(tmi; tm) 


Tehát a (4.24) Tyihonov-funkcionál az alábbi: 
kk 1 2 A All 
e) — zld— Goll t 5 Gow — 


a 1 
—--w G!Gw-— d!Gw- 5d d -k FwT Gow — 





T 1 
ze ES HA szesz szk sej [A 
—-w (G G1AG)w-—-w G dt-d d, . 
A b 5 
Ismeretes, hogy w! Aw — 2w!b 4 c minimumhelye kielégíti az Aw — b 


egyenletet. (Ennek pontosabb elemzését lásd a 6. fejezetben.) Tehát w az 
alábbi egyenlet megoldása 


(G!G 3 AGo)w — GT d. (4.25) 


Amennyiben A-val tartunk nullához, akkor (4.25) w megoldása a [[d— Gwl/? 
minimumhelyéhez, azaz (G!G)-G! d-hez konvergál. Itt M7 az M mátrix 
általánosított inverze, lásd Appendix. 
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Az RBF univerzális approximátor 


A radiális bázis függvények approximáló tulajdonságairól számos eredmény 
ismeretes (lásd pl. Buhmann [4]). Mi itt Park és Sandberg [36] cikkéből idéz- 
zük a következő eredményt. f: IR"9 5 R függvényeket kívánunk közelíteni 





(ej 


mi 
F(n) —Y wiG ( :) ,  reR" (4.26) 
i—1 
alakú F: R"09 6 R függvénnyel, ahol c 5 0, t; e R"9, G: RT9 6 R 
pedig előre rögzített magfüggvény. Az összes lehetséges (4.26) alakú függvény 
halmazát jelölje $G. 
4.10. Tétel. Legyen G: RT9 6 R előre rögzített, integrálható, korlátos, 


majdnem mindenütt folytonos, és Ígmo G(r) da A 0. Ekkor az SG függvény- 
család mindenütt sűrű LP(R"9)-ban tetszőleges p 2 1 esetén. 





Ez azt jelenti, hogy tetszőleges (de bizonyos integrálhatósági feltételt 
teljesítő) f: R"9 5 R függvényt meg tudunk közelíteni (4.26)-ben adott 
alakú F függvénnyel bármilyen pontossággal. 


4.4.1. A regularizációs paraméter meghatározása 


A A regularizációs paraméter megválasztásától jelentősen függ az optimális 
megoldás. Nem-lineáris regresszió esetén adjuk meg A becslését. Modellünk 
az alábbi. Az adott (mért) x; pontok és a szintén megfigyelhető v; értékek 
közötti kapcsolat: 


ahol f(.) egy valós értékű függvény, és C; úgynevezett diszkrét idejű fehérzaj. 
Nevezetesen CG; kielégíti az alábbi feltételeket 











EIG]— 0, minden 7-re, 


c?, hak—i, 
E[GCx] — jázási 
0, egyébként. 

















Az ismeretlen f(.) függvényt kell meghatározni. Legyen FX(x) a regularizá- 
ciós hálózat általi becslése az f(xr)-nek. A (4.7) képlet alapján a regressziós 
problémánk Tyihonov-funkcionálja: 


1 A 
£(P)-- Vw — Fa 4 S IIDFII. 


1-1 


Ebből kiindulva két konkrét becslési eljárást adunk meg A-ra. 
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Becslés az átlagos négyzetes hiba alapján 


Jelölje R(A) az f(x) regressziós függvény és az FX(xr) approximáló függvény 
közötti átlagos négyzetes eltérést, 


N 
2.lf(a — F.(ax) 2. (4.28) 


ze 


R()-nak a minimumhelye szolgáltatja az optimális A-t. Sajnos R(A) nem 
számolható ki az adott mennyiségekből, hiszen f nem ismert. Tegyük fel, 
hogy FX(xk) az v:i-k lineáris függvénye (ami a (4.23) és a (4.25) alapján 
realisztikus), azaz 


N 
SY OG Ú 
i—1 
Ez az alábbi mátrixos alakba írható: 
F, sz Ay, 


ahol 


an1(2) ... ann() 
Ezen jelölésekkel a (4.28) kifejezés: 
RO) - —1f— F.A? — —11f— AOJyIP? (4.29) 
TES N A E: N yi ; § 


ahol f — [f(m1), . . . , f(zwa)]". A kiinduló regressziós feladatunk pedig vek- 


toros alakban: 
y—- fr 
ahol € — [C1, . . ., Cw]! . Ezekkel a jelölésekkel a (4.29) képlet az alábbi: 


RO) — If —A0(f JIP — IT — AC) f — AA) OI? — 
1 2 1 
— IK — A) FI? — EGT AIT — AG) fr e E I: 
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Határozzuk meg ennek a várható értékét. A jobb oldal első tagja nem vélet- 
len, így várható értéke önmaga. Mivel a ( vektor várható értéke nulla, így a 
második tag várható értéke nulla lesz. A harmadik tag N-szeresének várható 
értéke pedig az alábbi. 


























EIA) el] — EIG" 40) A0)e] — 
— tr(IEIG" A) AG] — Eltr(G" A)" Ae. 


























Ismert, hogy adott A és B (összeszorozható) mátrixok estén trf(AB) — 
— trí BA). Ezért 


Etr(6" A) AG — EIA) "ALOL H— 03 tr( AD) AD) . 


























Összeadva a fentieket 





02 
BIROJ] — CI — AC) II? S TAO TAO). 























Mivel maga f nem ismert, ezért sem R(A), sem ER(A) nem számolható ki 
az adatokból. 

Ezen probléma megoldására Craven és Wahba [8] az alábbi mennyiség 
használatát javasolta: 


ÉS 52 2 
RO) — 7 14— AD) ul — ay (40993 — gy TT — 40). (4.30) 


a] 
N 
Egyrészt R(A) már kiszámolható, másrészt ,torzítatlan becslése? R(A)-nak 
abban az értelemben, hogy 


























E[R(X)] — EIROJ] . (4.31) 


Ezért RO) minimumhelyét fogadjuk el A becsléseként. 
A (4.31) egyenlőség bizonyításához elegendő R(A) első tagját tekinteni: 


1— AGY) ul? — If €— AG)? — 
— f— 40) ll? TET (fr — 409) TS — 


— RO) úr trfeT(f — A0)f— AOL gt E 


1 
Fr 


Ennek várható értéke pedig 


29? 
N 











ER(A) 





62 
tr( Ah) ) -- Éva tríI) — 


4.4. Az általánosított RBF hálózat 81 

















o? o? 
- ERO) — gy tr(4009)- p Hr((I— 409). 











Azaz a (4.30) jobb oldalának második és harmadik tagja eliminálja az ER(A)- 
tól való eltérést. 





A cross-validation eljárás 


Az előbbi becslés hátránya, hogy ismernünk kell a C; sorozat c? szórásnégy- 
zetét. Ez a hátrány nem jelentkezik a cross-validation eljárásnál. A cross- 
validation (más szóval leave one out, magyarul , hagyj ki egy pontot") eljárás 
a statisztikában gyakran alkalmazott. Hagyjunk tehát el egy elemet a min- 
tából. Határozzuk meg a maradék mintaelemek alapján az F ismeretlen 
függvényt. Jelölje F kél az 


11-ak Eza sdetéssszktő 
E(P)-5 Y w— F(adP SIDE 


Tyihonov-funkcionál minimumhelyét. Most pedig ellenőrizzük, hogy FS UK (a ) 
milyen jól képes a kihagyott k-adik értéket megjósolni. Tehát a A jöúzátak 
mértéke az alábbi: 

1 N 

)— 5. — FE (aa) P ; (4.32) 
k—1 


Ez a mennyiség az adatokból számolható. Az optimális A-át pedig Vo(A) 
minimumhelye szolgáltatja. 


4.4.2. Tanítási stratégiák 


A regularizációs hálózat esetén a középpontok az x; tanító pontok. Ezzel 
szemben a gyakorlatban ténylegesen alkalmazott RBF hálózatban a közép- 
pontok nem adottak előre. A radiális bázis függvények középpontjának meg- 
választása alapvető feladat. A 4.4. fejezet elején láttuk, hogy a RBF-ek szá- 
mát (mu1-et) kevesebbre érdemes választani, mint a tanító pontok száma 
(azaz mint N). 


Véletlenszerűen választott, de azután rögzített középpontok 


Az adott 21, ..., cv alappontok közül válasszunk véletlenszerűen mi dara- 
bot. Ezek lesznek a ti, . . . , tm, középpontok. Jelölje dmax a tz; pontok közötti 
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legnagyobb távolságot. Legyen 





A radiális bázis függvények pedig legyenek t; középpontú és o?I szórásmát- 
rixú Gauss-féle sűrűségfüggvények, azaz 





G(Ilz — till?) — exp (- 5—lz- ul?) , 1-1,2,..., ma. 
désas 

(Ez ténylegesen az Nm, (t:, 0? T) sűrűségfüggvényének a konstansszorosa.) Az 
így definiált Gauss-függvény biztosítja, hogy az RBF ne legyen sem túlságo- 
san lapos, sem túlságosan csúcsos. 

Most csak a A — 0 esetet tekintjük. Ekkor a 4.4. szakaszban levezetett 
módon a súlyvektort a [Id— GwlI? minimumhelyeként kell meghatározni. Itt 
a G mátrix N x mi méretű, (zi, j)-edik eleme pedig 


mi : j 
99— exp (5 — 4) , i—1,2,...,N, j—1,2,..., mi. 
max 
A IId— GwlII? minimumhelye w — Gtd lesz. Itt Gt a G mátrix pszeu- 
doinverze. GT-ról lásd a 6.2. szakaszt. 


A középpontok önszervező kiválasztása 


Ez kétlépéses tanítás az alábbi fázisokkal. 


(i) A középpontok meghatározása valamely statisztikai önszerveződő el- 
járás alapján. 


(ii) Az output rétegben w súlyvektor kiszámítása. 


Most leírjuk a középpontok k-közép módszerrel történő kiválasztását. Ez 
a klaszterezés standard eljárása. A klaszterezés fő ismérve, hogy nem csak 
az egyedek osztályba sorolása a feladat, hanem a megfigyelések alapján az 
osztályokat is nekünk magunknak kell kialakítanunk. 

Tehát a ti, to, . . . tm, középpontokat akarjuk meghatározni. Az n-edik 
lépésben jelölje t1(n), t2(n), . . . , tm,(n) az aktuális középpontokat. 


(1) A kezdeti t1(0), t2(0), . . . , tm1(0) középpontokat válasszuk tetszőlege- 
sen. 
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(2) Az n-edik lépésben az input mintapont x(n). Jelölje k(n) az új minta- 
pont legközelebbi társának indexét. Azaz legyen k(n) azon t;(n) indexe, 
amelyik x(n)-hez a legközelebb van. 


(3) Legyen az új klaszter középpont 


ahol ) € (0,1) előre adott tanulási paraméter. 
A többi klaszter középpontja változatlan marad, azaz t;(n--1) — t;(n), 


ha i £ k(n). 


(4) Döntés a leállításról. Vagy elfogadjuk a kialakított középpontokat, vagy 
n értékét növeljük 1-gyel, és visszatérünk (2)-re. (Azaz ez utóbbi eset- 
ben újabb mintaponttal módosítjuk a középpontokat.) 


A középpontok felügyelt kiválasztása 


Tekintsük az 
- ue (Il — t:II6,) 


alakú közelítéseket. Itt 
Ila — tilló, — IC:(a — to) — (z— tt)" Sy (m — t;) , 


ahol JE za CO C;. A normális eloszlás szórásmátrixának szokásos jelölése 
miatt használjuk a 27 ! jelölést. Most ez maga a meghatározandó paraméter, 
nem pedig 2 ;. 

Tehát keressük w;, t; és bag optimális értékét. A tanító pontok: (;, d; ), 
j-1,..., N. A minimalizálandó hiba: 


N 


[d; — F(ax;)] 
j7-1 


A minimalizálást a gradiens módszerrel hajthatjuk végre. Most az n-edik 
lépésben a változtatásokat és a gradienseket határozzuk meg. 
A w; súlyok változtatása. 


9€(n) 
ME (ni 





wi(n 4 1) — w;(n) — 
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ahol 


N 


[dj— F(xp)IG[ (zs — ti(n)) " 577 (m) (ay — ti(n)) ]. 
j71 





HAAKA 


A t; középpontok változtatása. 





ti(n 4 1) — t;(n) — m jee 
ahol 
N 
CEC — 2wi(n) 3 ld — F(z IG ( (a — ti(m))" Sztn) (ay — ti(n)) ) x 


A böki szórások változtatása. 


37" (n-41)— E (n) — 8 T e 


N 
E — — win) [dj — P(a)IG((z — tilny)T 57) (my — tu(n)) ) x 


j—1 
x (zj — ti(n)) (xz — ti(n))" . 


A fenti képletekben m1, )2, )n3 pozitív tanulási paraméterek. 


4.5. Magfüggvényes becslések 


A statisztikában gyakran alkalmazott nem-paraméteres függvény becslések 
közel állnak az RBF hálózattal adható függvény közelítésekhez. A nem- 
paraméteres jelző arra utal, hogy nem csak a függvény paraméterei isme- 
retlenek, hanem annak alakja is. 


4.5.1. A sűrűségfüggvény magfüggvényes becslése 


4.11. Definíció. Legyen K : R"9 6 R korlátos, folytonos, az origóra szim- 
Tt függvény, melynek maximuma az origóban van. Tegyük fel, hogy 
frzig TE xr)dx — 1. Ekkor K-t magfüggvénynek (kernel function) nevezzük. 
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Legyen x1,..., tw minta egy ismeretlen f sűrűségfüggvényű sokaságból 
(xz; € R"9). Az f magfüggvényes, más szóval Parzen-Rosenblatt-féle becslé- 


Se. 
N 


e 1 TX — Ti öz; 
fele — gyz EK 7 1. xeR"". (4.33) 


Itt h-t sávszélességnek (bandwidth) nevezzük. 

Tegyük fel, hogy h — h(N) — 0, amint N 6 co. Ekkor a sávszélességre 
és a magfüggvényre vonatkozó bizonyos feltételek esetén TÉN az f-nek aszimp- 
totikusan torzítatlan és L2-konzisztens becslése (lásd Prakasa Rao [39]). Az 


aszimptotikus torzítatlanság azt jelenti, hogy limw-co Efv(x) — f(x). Az 
va 2 
T2-beli konzisztencia pedig limN-oo E (ív) — f(a)) — 0. 





























4.5.2. A regressziós függvény magfüggvényes becslése 


Tegyük fel, hogy az Y egydimenziós véletlen mennyiséget akarjuk az X mo- 
dimenziós véletlen mennyiség valamely g függvényével közelíteni. Az opti- 
mális elméleti választás (amennyiben Y-nak van véges várható értéke) a 





9(2)—EYIX — a) 











feltételes várható érték. Ennek elméleti kiszámítása (ha van együttes sűrű- 


ségfüggvény) 
9(2) - f urul) ay - [e dy , 


ahol f(y,r) az Y és X együttes sűrűségfüggvénye, f(x) az X sűrűségfügg- 
vénye, f(y] 2) pedig Y-nak X-re vonatkozó feltételes sűrűségfüggvénye. 
Legyen most (yi, 11), . . ., (UN, tv) minta (Y, X-re. Az f sűrűségfügg- 
vény magfüggvényes becslése (4.33) alapján történik, míg az együttes sűrű- 
ségfüggvény ennek a képletnek az alábbi, (mg -- 1)-dimenziós változatával: 


N 
JAjzgáren Vg el] d 
1-1 


yER, x € R"". (Itt Ko is magfüggvény.) 
Építsük fel g becslését a, sűrűségfüggvények becsléséből ugyanúgy, mint 
ahogyan g-t kapjuk az elméleti sűrűségfüggvényekből. 


9(x) — f(4w2) a — 
9(x) [/ fi) y 
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2 mett ZA EV TE ÉKE) 
meszet Ún) EI K(Ee) 


Az utolsó lépésben az 


fr 5) dy— ( (hz 4 w)Ko (2) dz — Yi 


egyenlőséget használtuk ki. A végeredményként kapott 


Segei 2] 


képlet a g függvény magfüggvényes, más szóval Nadaraya- Watson-féle becs- 
lése. 
Bizonyos feltételek esetén 9(r) — gw(x) konzisztens becslés, azaz gw(2) 
sztochasztikusan konvergál g(x)-hez, ha N 6 co (lásd Prakasa Rao [39]). 
Ha a K magfüggvényt transzláció és rotáció invariánsnak választjuk, 
akkor egy normalizált RBF hálózatot kapunk: 














9(z) — 





N 
9(2) — ui (z, 2) , 
i—1 


ahol w; — y; és v (za) — K (sel) / ek (iss) 3 


4.6. Numerikus példák 


4.12. Példa. Közelítsük az f(r) — x? — z függvényt a [—2,2] intervallu- 
mon, ha a megfigyelések a —2 és 2 közötti, egymástól egyenlő távolságban 
lévő (azaz ekvidisztáns) alappontokban a hiba nélkül mért függvényértékek. 
Konkrétan 10 tanító pontot választottunk. Az első megoldás: (maximum) 11 
neuronnal és 1 sávszélességgel a 4.5. ábrán látható. Itt a közelítő függvény 
gyakorlatilag tökéletesen illeszkedik a becsülendőhöz. A 4.6. ábrán látha- 
tó két , próbálkozás" azonban kevésbé sikeres: RBF2 esetén csak 5 neuront 
engedtünk meg, ez kevésnek bizonyult, az illeszkedés nem tökéletes. RBF3 
esetén viszont a helyzet még rosszabb, itt (maximum) 50 neuront engedé- 
lyeztünk és a sávszélességet levittük 0.1-re. Ezzel a közelítő függvény , ugrál". 


Valójában a fenti esetben a tanító pontok száma éppen elegendő a függ- 
vény közelítéséhez (hiszen maga a függvény nem , bonyolult"). Vizsgáljuk 
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4.5. ábra. Az f(x) — 1? — r függvény jó közelítése RBF- 


fel 











1.11: RBF2 
— RBF3 
Eredeti fv. 
t — Mintavétel 























—1.5 -1 


0.5 i 


4.6. ábra. Az f(x) — r? — z függvény közelítése. RBF2 
túl kevés neuron, RBF3 túl sok neuron 


meg, hogy mi történik kevesebb tanító pont esetén! Ha csak 6 tanító pon- 
tunk van, akkor már kevésbé jó közelítéseket kapunk. Az első megoldás: 
(maximum) 11 neuronnal és 1 sávszélességgel a 4.7. ábrán látható RBF1. Itt 
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4.7. ábra. Az f(x) — r? — z függvény közelítése kevés 
tanító pont esetén. RBF1 elegendő számú neuron, RBF2 
túl sok neuron 


a közelítő függvény elég jól, de nem tökéletesen illeszkedik az becsülendőhöz. 
RBF?2 esetén viszont (maximum) 25 neuront engedélyeztünk és a, sávszéles- 
séget levittük 0.1-re. Ezzel a közelítő függvény ismét , ugrál". 


4.13. Példa. Közelítsük az 


f(x) — 2 Tk 51 - 1 
függvényt a [—1, 4] intervallumon, ha a megfigyelések a —1 és 4 közötti, egy- 
mástól egyenlő távolságban lévő (azaz ekvidisztáns) alappontokban a hibával 
terhelten mért függvényértékek. Konkrétan 21 tanító pontot választottunk. 
A mérési hiba pedig minden tanító pont esetén 0 várható értékű és 0.3 szó- 
rású normális eloszlású véletlen szám volt. Az első megoldás: (maximum) 5 
neuronnal és 2 sávszélességgel a 4.8. ábrán látható. Itt a közelítő függvény 
nagyon jól illeszkedik a becsülendőhöz. Ennek az az oka, hogy a közelítendő 
függvény alakja , egyszerű", a nagy sávszélesség és a kevés neuron pedig kisi- 
mítja a mérési hibák hatását. A 4.9. ábrán látható két , próbálkozás" azonban 
kevésbé sikeres: RBF2 esetén 11 neuront engedtünk és 1 sávszélességet. Itt 
az illeszkedés nem tökéletes. RBF3 esetén a helyzet még rosszabb, itt (maxi- 
mum) 50 neuront engedélyeztünk és a sávszélességet levittük 0.1-re. Ezzel a 
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Mintavétel 

















4.8. ábra. Az f(x) — 517 31—1 függvény jó közelítése 
RBF-fel 


közelítő függvény a tanító pontokban jól illeszkedik a hibával terhelt értékek- 
re, de a közelítendő függvényt rosszul approximálja, , ugrál". Az alkalmazott 
modell nem megfelelő, túlillesztett. 
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4.9. ábra. Az f(x) — 23? 3 3x— 1 függvény közelítése. 
RBF2 túl sok neuron, RBF3 túl sok neuron és túl kicsi 
sávszélesség 


4.14. Példa. Két halmaz szétválasztása RBF segítségével megtehető. Le- 
gyen az egyik halmaz 100 elemű minta kétdimenziós, (0,0)! várható érték 
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0.8 0 
0 0.8 
szórásmátrixú normális eloszlásból. A másik halmaz pedig ugyanilyen minta, 


azzal a különbséggel, hogy ott a várható érték vektor (2,2)!. A 4.10. ábra 
mind A, mind B részén x jelöli az első, o pedig a második halmaz elemeit. 





vektorú és 


De a megkonstruált elválasztó görbék különböznek. Az A részen maximum 
90 neuront engedélyeztünk, a sávszélességet 0.5-re állítottuk, az elérendő leg- 
kisebb négyzetes hibát pedig alacsonyra (0.0001-re) állítottuk. Az elválasztó 
görbe a tanító pontokat helyesen szeparálja, azonban rosszul általánosít. Hi- 
szen tudjuk, hogy esetünkben a két normális eloszlást optimális módon egy 
egyenes osztaná ketté. Az ábra B részén lévő szeparálás azért sokkal jobb, 
mert ugyan az aktuális tanító pontokat nem tökéletesen osztja ketté, azon- 
ban jól általánosít. Ezt az eredményt maximum 30 neuron engedélyezésével 
és 2 sávszélességgel értük el, miközben az elérendő legkisebb négyzetes hibát 
is magasabbra (0.01-re) engedtük. 

















4.10. ábra. Két normális eloszlás szeparálása RBF-fel. 
A rész: túl sok neuron, rosszul általánosít. B rész: meg- 
felelő számú neuron, jól általánosít 


4.7. Feladatok 


1. Ábrázoljuk a 4.2 szakasz végén megadott RBF interpolációs hálózatot! 


2. Igazoljuk, hogy a 4.7 és a 4.8 Példákban leírt esetek rosszul felállított 
problémák! 


3. Igazoljuk, hogy tr AB — tr BA. 
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4. Ábrázoljuk a 
zel) 
P(ry— (7) Pell 
függvényt, ahol c rögzített pozitív paraméter, r pedig a pozitív számokon 
futó változó! Állapítsuk meg a v függvény tulajdonságait! Ezt nevezzük 


thin-plate-spline magfüggvénynek. Az ezzel definiált 2) 24 w:e(Ila — t:ID) 
RBF-eket kiterjedten alkalmazzák. 


5. Oldjuk meg RBF-fel a, 2. fejezet feladatai között definiált XOR-problé- 
mát! 


6. Közelítsük az alábbi függvényeket RBF segítségével! 
f(m—a?, — f(xy—-logz,  f(xy—sinx, f(x)— (sinx)/x, 


f(ay)— 2? ay, — f(a2y)—27/y. 


Válasszunk alkalmas tartományt, ahol a fenti függvényeket közelíteni 
akarjuk. Generáljunk különböző számú és sűrűségű tanító pontokat. Vizs- 
gáljuk külön azt az esetet is, amikor a függvényértéket csak valamilyen 
véletlen hibával tudjuk megfigyelni (azaz a tanító pontok ilyenek, de a 
közelítendő függvény a hiba nélküli). Alkalmazzunk különböző neuron 
számú RBF-eket! Ábrázoljuk az eredményt! 


7. Vizsgáljuk az RBF-fel való szeparálást! Állítsuk valamilyen módon elő 
a tanító pontok A és B halmazát, és szeparáljuk RBF-fel! A két hal- 
maz lehet 2- vagy 3-dimenziós, véletlen vagy determinisztikus módon 
megadott, akár egymásba átnyúló is. Alkalmazzunk különböző neuron 
számú RBF-eket! Ábrázoljuk az eredményt! 


8. Az előző két feladatot oldjuk meg MLP-vel is! Hasonlítsuk össze a legjobb 
MLP-t a legjobb RBF-fel! 


9. Vizsgáljuk az RBF-fel való szeparálást 3 halmaz esetén! Szeparáljunk el 
egymástól 3 síkbeli halmazt! Ábrázoljuk az eredményt! 


5. fejezet 


A tartó vektor gépek 


5.1. A tartó vektor gépek kialakulása 


A Support Vector Machine (SVM) tekinthető mint egy speciális neurális há- 
lózat. Több szakember azonban szereti a statisztikus tanulási elmélet (sta- 
tistical learning theory) keretébe sorolni. Valójában a statisztikus tanulási 
elméletet érdemes egy tágabb, elméleti tudománynak tekinteni, míg a neurá- 
lis hálózatokat egy speciálisabb, gyakorlati megvalósításra fókuszáló eszköz- 
tárnak. Függetlenül a besorolástól, az SVM az utóbbi évtizedekben fontos 
gyakorlati eszközzé és egyben mély elméleti kutatások tárgyává vált. 

A Support Vector Machine magyar megfelelője a tartó vektor gép (le- 
hetne esetleg ,tartó vektor mechanizmus" is). Közismert magyar rövidítés 
híján az SVM angol rövidítést használjuk. Az SVM elmélete és alkalmazá- 
sai, párhuzamosan a statisztikus tanulási elmélettel, az utóbbi 30-40 évben 
alakultak ki. Leginkább V. N. Vapnik és munkatársai szerepe volt ebben a 
döntő (lásd Vapnik-Chervonenkis [48]). A témakör ma is intenzíven fejlődik. 

Korábban láttuk, hogy az MLP és az RBF segítségével elvégezhető a 
függvényközelítés és az osztályozás feladata. Az SVM is ezekre alkalmas, de 
az SVM-nél a cél az optimális megoldás megtalálása. Tehát itt a jól működő 
matematikai módszer kialakítása a fontos, nem pedig a heurisztika és a szá- 
mítógépes kísérletezés. SV M-et alkalmaznak karakterfelismerésre, képfeldol- 
gozásra, a bioinformatikában, az adatbányászatban és számos más területen 
is. 

Ebben a fejezetben elsősorban Vapnik [49] közismert monográfiájára tá- 
maszkodva ismertetjük az SVM-et, de Cristianini és Shnawe- Taylor [10] köny- 
vét, valamint Haykin [18] átfogó művét is használjuk. Az SMO leírásánál 
Platt [37] cikkéből is merítünk. 
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5.2. SVM osztályozásra 


5.2.1. Az optimális hipersík a lineárisan szeparálható esetben 

Az optimális hipersík geometriai meghatározása 

Ebben a szakaszban Vapnik [49] könyvét követjük. Tegyük fel, hogy az 
(51, y1),....(tN.yn), mEeER" wet-1i1 (5.1) 


minta, más szóval tanító halmaz elemei két osztályból származnak. Ha az 
x; € R7 mintaelem az Ai osztályból származik, akkor y; — 1, amennyiben 
az A2 osztályból, akkor pedig yv; — —1 jelöléssel élünk. Azt mondjuk, hogy a 
fenti tanító halmaz lineárisan szeparálható, ha létezik olyan hipersík, amely- 
nek egyik oldalán vannak 41, a másik oldalán pedig A2 elemei. Pontosabban 
szólva lineárisan szeparálható az 


(x,p) — c 6.2) 
hipersíkkal, ha 


(Ti, P) 2 C, ha Yi — 18 (5.3) 
téri Pp) ac, ha yvj——l, (5.4) 


ahol p € R? egységvektor, c € R és (a, b) az a és a b vektorok közötti belső 
szorzatot jelöli. 

Azt már láttuk, hogy perceptronnal ez a lineáris szeparálás megoldható, 
éppen ezt állítja a Rosenblatt-Novikoff-féle perceptron konvergencia, tétel. 
Most azonban az optimális, azaz a legjobb elválasztó hipersíkot keressük. 
Szemléltessük a különböző lineáris szeparálásokat! Az 5.1. ábra (a) részén 
két nem optimális elválasztó egyenes látható, itt a , margók" keskenyek. A 
(b) részén pedig optimális a szeparálás, azaz az elválasztó hipersík a lehető 
legtávolabb van a minta pontoktól. Látható, hogy a vékony vonallal meghú- 
zott margók a lehető legtávolabb vannak egymástól, a rájuk illeszkedő minta 
pontok az ún. tartó vektorok. A vastag vonallal húzott szeparáló egyenes pe- 
dig a , határsáv" közepén halad. 

Feladatunk az (5.1) tanító halmaz ismeretében megkonstruálni az opti- 
mális hipersíkot. Egyszerű geometriai feltételt adunk az optimális hipersíkra, 
amelyet majd a Kuhn-Tucker-tétel alkalmazásához át fogunk fogalmazni. 
Tegyük fel tehát, hogy az (5.1) halmaz hipersíkkal szeparálható. Tetszőleges 
p egységvektor esetén vezessük be az alábbi jelöléseket: 


c1(6) — min(mz, 0), (5.5) 
ga 
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Ai osztály Ai osztály 








9 5..szö 


jelle) 








-k 65 EM 
Az osztály 
(a) 


5.1. ábra. Elválasztás hipersíkkal (kétdimenzióban 


egyenessel): (a) két nem optimális elválasztás, (b) ma- 
ximális margójú elválasztás 


és 
EZAZ TÁST ÉSA (5.6) 
Legyen a 6g egységvektor a 


ci(p) — c2(p) 


elso) — 40 5.7) 
kifejezés IlelI — 1 feltétel melletti maximumhelye. 
5.1. Állítás. A fentiekben definiált Po vektor és a 





2 


konstans megadja az (£, pg) — co optimális, vagyis maximális margójú sze- 
paráló hipersíkot. 


Bizonyítás. Legyen eg az optimális elválasztó hipersík (kettő dimenzióban 
egyenes), ennek egységnyi hosszúságú normálvektora pg. Legyen eg egy 
pontja xo, az Ai halmaz egy eleme pedig xr1. Kétdimenzióban az 5.2. ábra 
szemlélteti ezeket. Látható, hogy 


(o, £1 — 0) — mi 5 0, 
és ti éppen mi távolságra van az eg hipersíktól. Az előbbi formulából 


(o: 11) - (0. 70) Tt mi, (5.9) 
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O T1 
Ai osztály 








5.2. ábra. Az elválasztás margójának szemléltetése 


ezek minimuma (amint x1 végigfutja A1-et) pedig ci1(9). Másrészt x2 € Az 
esetén a 


(0. 72) — (60, 70) 4 m2 (5.10) 


képletben m2 éppen az x2 € A2 pont eg-tól való távolságának a negatívja. 
Ezek alapján 
c1(p) — c2(p) 
2 
maximalizálása pontosan a margó maximalizálását jelenti. Az 5.2 ábránk 


0(p) — 














Megjegyezzük, hogy ha a hipersík (eg, £) — co egyenletében co-t (5.8) 
szerint választjuk, akkor a hipersík az Az és A2 halmazokat elválasztó (és 
lehető legszélesebb) sáv középvonalában halad. Valóban, xr akkor és csak 
akkor elégíti ki a (eg, T) — co egyenletet, ha 

c1(£0) TF c2(P0) 


(90. 7) — cg — 5 ; (5.11) 





Jelölje mi és ma az eg-hoz legközelebbi elemek előjeles távolságát eg-tól. 
Ekkor a fenti egyenlőségből (5.9) és (5.10) alapján 


(400, 10) -- mi (490, 10) ht ma 
2 


mit m2 
2 





(o. 1) Ez sa (00. 70) AE 
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Viszont tudjuk, hogy z akkor és csak akkor van eo-on, ha (69, t — xo) — 0. 
Ez és a megelőző utóbbi egyenlőség pedig csupán mi — —m. fennállásakor 
teljesülhet egyidejűleg. Azaz eg az ez és ez egyenesektől egyenlő távol halad. 

Felmerül a kérdés, hogy létezik-e több optimális hipersík. A józan szem- 
lélet és néhány kétdimenziós próbálkozás mutatja, hogy nem. 


5.2. Tétel. Két lineárisan szeparálható halmaz esetén az optimális elválasztó 
hipersík egyértelmű. 


Bizonyítás. Mivel 0(£) folytonos, így létezik maximumhelye a Ilell £ 1 zárt 
egységgömbben (azaz kompakt halmazon). Belátjuk, hogy a maximumhely 
a gömbfelületen van. Tegyük fel ellenkezőleg, hogy a maximum valamely 9" 
belső pontban van. A szeparálhatóság miatt 9" - 0. Ekkor viszont a, 


xk 


p 


Po — TET 
97 lesi 


egységvektor nagyobb margót ad, mint 9": 





0(") x 
0(20) — Tar 7 0(07) 
KT] 
mivel [/"II c 1-et feltételeztük. Ezért a lIIe"II — 1, azaz a maximum csak 


a határon lehet. (Fent kihasználtuk azt, hogy a két részhalmaz hipersíkkal 
elválasztható, ami alapján valamely 9 pontban 0(£) pozitív.) 

Tegyük fel most, hogy a tétel állításával ellentétben két maximumhely 
is van. Az előzőek szerint mindkettő a határon helyezkedik el. Mivel kon- 
káv függvények minimuma is konkáv, így ci(p) (lévén lineáris függvények 
minimuma) konkáv. Ebből következően a o(p) függvény is konkáv. Ezért, 
ha 0(p)-nak két pontban is maximuma lenne, akkor a közöttük lévő sza- 
kasz pontjaiban is maximuma lenne. Ezek a pontok viszont az egységgömb 
belsejébe esnének, ami ellentmond az előzőekben bizonyítottaknak. 














Most átfogalmazzuk a fenti feladatot konvex minimum problémává, mivel 
az ilyen módon kapott alakra már tudjuk a Kuhn-Tucker-tételt alkalmazni. 
Annak segítségével pedig a duális változók terében kapunk egy kvadratikus 
programozási feladatot, ami numerikusan megoldható. 

A feladat átfogalmazása a következő. Keressük azt a ig vektort és bg 
konstanst, melyek teljesítik a 


)4b21, ha yvy—-l, (5.12) 
)4báC-1, ha y-—-—-—I1 (5.13) 


(ti, 


(ti, 


£ 
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egyenlőtlenségeket, és minimalizálják a 


Ibi[? — (b, 44) (5.14) 


norma négyzetet. 


5.3. Tétel. Az (5.14) kvadratikus kifejezést az (5.12)-(5.13) lineáris felté- 
telek mellett minimalizáló 1bag vektor normalizáltja éppen az optimális hiper- 
síkot megadó pg vektor, azaz 


bo 
Fo vor 


Továbbá az optimális hipersík és a szeparálandó vektorok közötti margó nagy- 
sága: 





(5.15) 


0(£9) — sup z (minen) — max (zu) ) - ss (5.16) 
N 1512 441 Viz Ioll 

Bizonyítás. Először is látható, hogy az (5.3)-(5.4) szeparálhatósági feltéte- 

lekből következik, hogy van az (5.12)—(5.13) feltételeket kielégítő 14 vektor, 

és az is, hogy az ilyen vektorok nem lehetnek a nullához közel. Mivel 1bag egy 

négyzetes függvény minimumhelye lineáris feltételek mellett, így belátható, 

hogy egyértelmű, és az előzőek alapján nem nulla. Legyen 


bo 
F17 ol] 





feltételekből következik, hogy 


1172 ely e (rea) 
0(P1)— 9 ( sz Ci C2 2 
" iloll / 2 ikboll iloll 
el mz) 1 
—2AIboll  Ileboll ilboll 
Azonban az eredeti 9g vektor az (5.7)-beli o függvényt az egységgömbön 
maximalizáló egyértelmű vektor. Most ki fogjuk mutatni, hogy a o függvény 


az egységgömbön nem vehet fel 1/IlibolI-nál nagyobb értéket. Ebből a, fenti 
egyenlőtlenség miatt következik, hogy 








1 
0(p1) eg Hol 
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másrészt 91 — 6. Indirekt bizonyítunk. Tegyük fel ellenkezőleg, hogy léte- 
zik 9" egységvektor, melyre 





1 
do (5.17) 
ikboll 
teljesül. Tekintsük a 
4 p" 
147" — 
0(£") 


vektort. Erre (5.17) miatt 


) z Mert - Ikboll — Ilvoll, 


azaz kisebb normájú, mint bo. Ellenőrizzük, hogy a ab" vektor a 


Il] 
III — 
0(p" 





ci(27) — c2(e) 
20(p") 


számmal teljesíti az (5.12)—(5.13) feltételeket. Valóban, x; € Ai esetén 
az (5.12) feltételt felírva: 


b — 








MEva (mp) alt cl) , al) — cl) 
KEATASEÁS tag] Zolee) 7 e) 


Hasonló (5.13) esetén is. Tehát ab" kisebb normájú, mint ibo, és teljesíti 
az (5.12)—(5.13) feltételeket. Ez ellentmond a 4g definíciójának. 














Az optimális hipersík numerikus meghatározása 


Az optimális hipersík numerikusan kezelhető alakját keressük. Írjuk egységes 
alakba az (5.12)—(5.13) feltételeket: 


HÁ EDET Za (5.18) 
Ezen feltételek esetén kell megkeresnünk az 

1 2 

all 
függvény minimumhelyét. Az (5.18) feltételek 1494-ben és b-ben konvex (lé- 


vén lineáris) függvények, továbbá a célfüggvény is konvex. Tehát a feltételes 
minimum keresésére a Kuhn-Tucker-tételt (lásd Appendix) alkalmazhatjuk. 
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Mivel a lineáris szeparálhatóság miatt a Slater-feltétel teljesül, ezért létezik 


optimum. 
Most tehát 
1 N 
L(ab, b, a) — 5 (abb) — Dai (yilKeri, 1) 4 b] — 1) — (5.19) 
i—1 


- 5 (ab, 1) — ES OGYI Ti, v) 7 bye és ay; prg aj (5.20) 


a Lagrange-függvény, ahol a; 2 0, i — 1,..., N, a Lagrange-féle multipli- 
kátorok. A minimumhely meghatározásához ezen L függvény nyeregpontját 
kell megtalálni, azaz minimalizálni kell ib és b szerint és maximalizálni a 
szerint. Határozzuk meg az (5.20) Lagrange-függvény deriváltját ab és b sze- 
rint. 





— OLb9 A 
0 — Öib sí 2 0GYizi 





N 
. OL( ba) 
0 — 35 —— "2 Ar yi- 
A fenti két egyenletből 


N 
ÜEZ AK (5.21) 
1-1 


N 
3. dj (5.22) 
2-1 


Ezeket visszahelyettesítjük az (5.20) egyenlőségbe: 


1 N 


i—1 
azaz 
N 1 N 
W(a) 7 328 Aj — 5) pa ÜGY AJ Ár, Tj ) (5.23) 
1-1 2, j—1 
A behelyettesítések nyomán ab és b kiesett, az L-ből így kapott függvényt 
pedig W(a) jelöli az (5.23) formulában. 


A Kuhn-Tucker-tétel értelmében meg kell találni azokat az a? konstan- 
sokat, amelyek esetén az (5.23) eléri a maximumát az az; 2 0 és az (5.22) 
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feltételek mellett. Ez egy kvadratikus programozási feladat, amelynek megol- 
dására léteznek módszerek. Ha ezt megoldjuk (a megoldást jelölje a9), akkor 
megkapjuk az optimális hipersíkot megadó vektort: 


N 
ME sees a 
ho — y VO Ti. 
gek 


A bo értéknek ki kell elégítenie a 
a9(yi((ai, Vo) bo) —1)—0, i—1,...,N, 


Kuhn-Tucker-feltételeket (lásd (6.47) ). 
A zérustól különböző a értékekhez tartozó x; vektorokra tehát teljesül- 
nie kell az 


yi((r, bo) t bo) — 1 (5.24) 


feltételnek. Innen bg kifejezhető. Ezen feltételt kielégítő x; vektorokat ne- 
vezzük tartó vektoroknak (support vector). Az x; vektorok közül a tartó 
vektorok vannak a legközelebb az optimális hipersíkhoz. 

Végül az optimális hipersík egyenlete: 


N 
f(x) — ) war, z) 4 bo — 0. 
1-1 


Ezt a képletet az optimális hipersík (5.2) képletét, ci() és ca(p) definíció- 
ját, a co-ra vonatkozó (5.11) képletet, az (5.12)-(5.13) feltételeket, továbbá 
Po és ho (5.15) összefüggését, valamint az (5.24) egyenlőséget használva 
igazolhatjuk. Figyeljük meg, hogy mind 1bg kifejezésében, mind az optimális 
hipersík képletében csak a tartó vektorok szerepelnek nem-nulla együttha- 
tóval. 

Az is látható, hogy mind az optimális hipersík képletében, mind a W 
célfüggvényben csak a vektorok belső szorzata szerepel, maguk a vektorok 
nem. Ez fontos lesz a lineárisan nem szeparálható esetben. 


5.2.2. Az optimális hipersík a nem szeparálható esetben 


A gyakorlatban előforduló esetek többsége olyan, hogy a halmazok nem sze- 
parálhatóak lineárisan. De ilyenkor is előfordulhat, hogy az optimális szepa- 
rálás lineáris. Például közismert, hogy két, azonos szórásmátrixú, de külön- 
böző várható érték vektorú normális eloszlásból vett mintát hipersíkkal kell 
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szétválasztani. Az 5.3. ábrán a 


szórásmátrixú, és m — (2,1)! várható érték vektorú kétdimenziós normális 
eloszlás sűrűségfüggvénye látható a szintvonalakkal. 
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5.3. ábra. Kétdimenziós normális sűrűségfüggvény 
szintvonalakkal 


Generáljunk 100 elemű mintát ebből a normális eloszlásból, valamint az 
ugyancsak D szórásmátrixú, de n — (3.5, 2.5)! várható érték vektorú kétdi- 
menziós normális eloszlásból. Ábrázoljuk a két mintát a síkon! Hogyan lehet 
ezeket szeparálni? Az 5.4. ábrán látható az eredmény. A berajzolt (elméleti) 
szintvonalak, azaz a koncentráció ellipszisek jól mutatják, hogy az egyenes 
jól szeparál. De természetesen vannak rosszul szeparált minta pontok, hiszen 
a két eloszlás , átnyúlik" egymásba. Tehát ha egy hipersíkkal akarjuk elvá- 
lasztani az adatokat, akkor valahogyan kezelnünk kell a hibás szétválasztást. 
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5.4. ábra. Normális eloszlásból vett minták szeparálása 


Két osztály közötti olyan elválasztást tekintünk, hogy néhány tanító pont 
megsérti a korábbi (5.18) feltételt, azaz az 


vi(tb, r) tb) 21 (5.25) 
egyenlőtlenséget. Ez kétféle módon történhet: vagy 


- az (x;, yi) tanító pont a sík jó oldalán van, de a két margó köze esik, 
vagy 


- az (xi, vi) tanító pont a sík rossz oldalára esik. 


A Vapnik által javasolt megoldás a következő. Vezessük be a nem-negatív 
(GHL 1 segédváltozókat, és az (5.25) egyenlőtlenség helyett csak az 


vi(tp, 3) tb 21— é;, 9 BREE 1 (5.26) 


feltétel teljesülését követeljük meg. 

Ha 0 — €; a 1, akkor a tanító pont a sík jó oldalra esik, de a margók közé, 
ha viszont 1 € €£;, akkor ez a pont a sík rossz oldalára esik. Az , átlógások" 
minimalizálása érdekében ezeket a hibákat korlátozni kell. Azaz a 


N 
bak: 
1-1 
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kifejezésnek a lehető legkisebbnek kell lennie. 
A javasolt célfüggvény a következő: 


N 
$(p,§) — 5 (4. 4b) FOY E. (5.27) 


1-1 


Minimalizálandó az (5.27) célfüggvény az (5.26) és a €; 2 0, i — 1, 2, . . . , N, 
feltételek mellett. 

Két osztály közötti ilyen elválasztást Vapnik [49] lágy margójúnak (soft 
margin) nevezi. A fenti célfüggvény magyarázatául szakkönyvek a követke- 
zőket adják. Haykin [18] könyve egyrészt a célfüggvény matematikailag ke- 
zelhető voltát emeli ki. Másrészt megjegyzi, hogy (5.27) jobb oldalának első 
tagja az illesztett modell bonyolultságát, második tagja pedig az ,átlógási" 
hibát kontrollálja. A szabadon választható C 5 0 paraméterrel e két ténye- 
ző között egyensúlyozhatunk. Maga Vapnik [49] először olyan elválasztást 
tekint, ahol a margó A nagyságú (az eredeti esetben automatikusan A — 
— 1/Il4oll volt, lásd (5.16)). Annak az számolásait egyszerűsítendő ajánlja a 
lágy margót, azaz a fenti célfüggvényt. Cristianini és Shawe-Taylor [10] pe- 
dig a fenti célfüggvényt az osztályzás hibájára adott elméleti felső korlátból 
származtatja. 

Most alkalmazzuk a Kuhn-Tucker-féle tételt az (5.27) konvex célfügg- 
vénynek az (5.26) és a £, 2 0, i — 1,2,..., N, lineáris feltételek melletti 
minimalizálására. Készítsük el az 


L(p,b, §, a, B) — 
N N 
5, 1) FOY E — Dar ( vi ( (ab, c) 4 b) —1-£;) Vht 
1-1 1-1 


Lagrange-függvényt, ahol a; 2 0, B; 2 0 a multiplikátorok. Megint nyereg- 


pontot keresünk. ab, b és €; szerint minimumot, míg az, Ő; szerint maximu- 
mot. A deriváltakra 











ÖL , b, rő ) ki 

0 — ev 8. sőlsz EE ap 2, OGYitti (5.28) 
ÖL , b, rő ) al 

0 — út zs SZLSZÉRB 20 (5.29) 


08: 
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Az (5.28) egyenlőségből 1 — He aryiri. Ezt visszahelyettesítve L kife- 
jezésébe, és alkalmazva az (5.29) és (5.30) egyenlőségekből adódó összevo- 
násokat, látjuk, hogy a tagok többsége kiesik. Így behelyettesítés után a 
Lagrange-függvény a következő alakú lesz: 


1 N 


i—1 
azaz 
- a — — 155 UGY (Ti, Dj) OG . (5.31) 
i,j—1 
Tehát az (5.31) kifejezést kell maximalizálni ax, . . . , aw szerint a 


N 
ba wai — 0, (5.32) 
j—1 


OZga; Cl, i—1,...,N, (5.33) 
feltételek mellett. Ez utóbbiak közül (5.33) az (5.30) és a 8; 2 0 feltételekből 
adódik. 

Ez a feltételes maximum keresés egy kvadratikus programozási feladat. 
Ha ezt megoldjuk (a megoldást af), . . . , ay jelöli), akkor megkapjuk az op- 
timális hipersíkot megadó vektort: 


N 
19 — YO. 
i—1 
A bo értéknek ki kell elégítenie az 


BIO, etes AV (5.35) 
Kuhn-Tucker-feltételeket. Elemezzük ezeknek a feltételeknek a következmé- 
nyét. Ha most a) c C, akkor (5.30) miatt 8; / 0, de ekkor az előzőekből 
€; — 0. Emiatt, ha 0 € a9 c C, akkor 

vi((x, bo) 1 bo) — 1. (5.36) 


Innen bo meghatározható. 
Végül az optimális BVSE egyenlete: 


- mot (TT 24 bo — 0. 
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5.2.3. Az SVM használata nem-lineáris szeparálásra 
Magfüggvények 


A d-dimenziós térben akarunk szeparálni. Bizonyos esetekben az optimális 
elválasztó felület hipersík, még akkor is, ha a két halmaz hipersíkkal nem 
szeparálható hiba nélkül. 

Azonban a valóságos problémákban az elválasztó felület gyakran nem 
hipersík. Amint azt már az RBF tárgyalásánál láttuk, megoldást jelenthet a 
magasabb dimenziós térbe történő transzformálás. A mintát a p: R? 6 RT", 
d  g, nem-lineáris függvénnyel magasabb dimenziós térbe képezzük. Ezt a 
teret a tulajdonságok terének (sajátságtér, feature space) nevezzük. Ebben 
a térben illesztjük az optimális hipersíkot. Ismeretes, hogy ebben a térben 
g 3 1 (általános helyzetű) vektort tudunk lineárisan szeparálni hiba nélkül. 

Az előzőekben láttuk, hogy a feladat megoldásához nincs szükségünk 
explicit módon a tulajdonságok terében lévő vektorokra, csak azok belső 
szorzatára. A belső szorzat általános fogalma: szimmetrikus bilineáris for- 
ma, melyből származó kvadratikus forma, pozitív definit. Így (esetleg újabb 
transzformáció után, amelyet £-be , beépítünk"), jutunk az alábbi képlethez 


(e(r), p(y)) — 2. mioila) oil), mi 5 0. 


Tehát az ilyen alakú belső szorzatokat érdemes tekintenünk. Lényegében 
ilyen alakú kifejezéshez jutunk, ha a belső szorzat helyett magfüggvényt 
használunk. Ez az alább ismertetendő Mercer-féle tételből következik. 

Legyen K: [a,b] x [a,b] — R szimmetrikus függvény, azaz K(T,y) — 
— K(y, x). Tegyük fel, hogy K négyzetesen integrálható [a, bI2-en. Definiál- 
juk a K-hoz tartozó integrál operátort 


(Akf(xz )— [Kredit y)dy 


szerint. Egy e: la, bl - R négyzetesen integrálható (nem-nulla) függvényt az 
Ak operátor sajátfüggvényének nevezzük, a u számot pedig sajátértékének, 
ha Akp — up. 

Schmidt tétele szerint tetszőleges szimmetrikus, négyzetesen integrálható 
K(x,y) függvény a 


— 8 mipi( 2) pi (y) (5.37) 
izi 
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sorba fejthető, ahol a fenti sor 22-ben konvergens, a (6:(x)) függvények 
a K(x,y) magból származtatott Ax operátor ortonormált sajátfüggvényei, 
(1i)-k pedig a megfelelő sajátértékek. Azonban a fenti sor nem mindig egyen- 
letesen konvergens, még folytonos magfüggvény esetén sem. A pozitív sze- 
midefinit esetben azonban igen. K-t pozitív szemidefinitnek nevezzük, ha 
minden 4; / 0 sajátérték pozitív. 


5.4. Tétel (Mercer tétele, lásd Riesz-Szőkefalvi [41]). Legyen K: [a,b] x 
x la,b] —- R folytonos, szimmetrikus, pozitív szemidefinit függvény, akkor 
az (5.37) sorfejtés egyenletesen konvergens. 


A fenti tételnek vannak általánosabb változatai is. Például az [a,b] in- 
tervallum helyettesíthető egy kompakt metrikus térrel, amelyet elláttunk 
egy véges mértékkel. Haykin [18] könyvében az [a, b] intervallum helyett egy 
la, b] € IR? téglatestet tekint. Számunkra az az alak alkalmas. Valójában 
azonban Mercer tétele számunkra nem bizonyításra, hanem csupán elvi alá- 
támasztásra szolgál. 

Tehát ha olyan K(rx, y) magfüggvényt használunk, amely a Mercer-tétel 
feltételeit kielégíti, akkor lényegében egy tulajdonságtérben dolgozunk. Ál- 
talában az alábbi magfüggvényeket használjuk. 


1. Polinomiális: 
K(x, ax) — (xx) 4 1). 


Ez egy d-változós, p-edfokú polinom. p értékét nekünk kell megadnunk. 


2. Radial Basis Function: 


1 
K(x, x;) — exp (s Iz — cz] 1 j 


Ez lényegében a Radial Basis Function hálózatot (RBF) valósítja meg. 


Viszont az SVM automatikusan határozza meg a tartó vektorok szá- 
mát, magukat a tartó vektorokat és a (kimeneti rétegbeni) az együtt- 
hatókat. A c paramétert magunk választhatjuk meg. Ezzel szemben 
a hagyományos RBF heurisztikus módszerrel határozza meg a közép- 
pontokat (azaz a tartó vektorokat). 


3. Kétrétegű perceptron tangens hiperbolikus transzfer függvénnyel: 
K(x, x) — tanh(8o( mr, x;) -- Bi). 


Ez a magfüggvény csak bizonyos 0o, 81 értékekkel teljesíti a Mercer- 
tétel feltételeit. Ez az SVM az MLP hálózatok sigmoid függvényét (a 
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tangens hiperbolikus függvényt) használja, lényegében kétrétegű per- 
ceptront valósít meg. Viszont az SVM automatikusan határozza meg a 
rejtett szint neuronjainak a számát (azaz a tartó vektorok számát), a 
hozzá tartozó súlyokat (x; lesz az i-edik neuron súlyvektora) és a kime- 
neti szint a; súlyait. Ezzel szemben a hagyományos MLP heurisztikus 
módszerrel határozza meg a rejtett rétegbeni neuronok számát. 


Megjegyezzük, hogy a képfeldolgozásban gyakran használják a hisztog- 
ram-metszet magfüggvényt. 
Az osztályozás végrehajtása 


A fent említett transzformáció miatt a ténylegesen megfigyelt 


(1, y1), . . .. (EN,YN) 
értékek helyett a 
(e(21), 1), tését) (P(zN), yN) 
pontokat kell szeparálnunk. Továbbá, tudva hogy az optimális hipersík 


(ao, 2) - bo -0 


alakú, ahol 
N 
Po Ház JE Had ri , 
i—1 


sőt az optimalizálási feladatban nem maguk a vektorok, csak azok belső szor- 
zatai szerepelnek, minden belső szorzatot magfüggvénnyel helyettesítünk. 

Tehát mindenütt a (., .) belső szorzat helyett a K(., . ) magfüggvényt 
írva az alábbiakat kapjuk. Az elválasztó felület egyenlete: 


N 
f(x,a) — ) woiK(x,r) hb — 0. (5.38) 
1-1 


Az SVM által megvalósított ezen megoldást hálózatként is ábrázolhatjuk, 
amit az 5.5. ábrán mutatunk be. 

Az (5.38) egyenletben az a; együtthatók és a b értékét kell meghatároz- 
nunk. Az előző szakaszok számításai alapján ezekhez a 


N N 
1 
W(a2- 2 a1— 5 2, magyiyj K (ri, xj) (5.39) 

i—1 ij-1 


5.2. SVM osztályozásra 109 





kvadratikus célfüggvény 


N 
Dia — 0, (5.40) 
(Emzi H 


O£a; CC, i—1,...,N, (5.41) 


lineáris feltételek melletti maximalizálásával jutunk. A kapott a? értékek egy 
része nullával egyenlő, a nem nullához tartozó x; vektorok a tartó vektorok. 
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5.5. ábra. Az SVM által megvalósított hálózat 


Az SVM használata: ha a fentieket kiszámoltuk, akkor egy tetszőleges z 
pontot (nem tanító pontot) a 


d(z, a) — sen Ha vo K(z, xi) - bo 


xztartó vektor 


döntésfüggvény szerint osztályozunk. 


Több osztályba sorolás 


Ha több osztály létezik, akkor a feladatot visszavezetjük két osztályra. 
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5.2.4. Az SVM tanítása 


A tanítás jelen esetben egy függvény feltételes maximumának meghatározá- 
sa. Valójában az MLP esetén is egy függvény (a hiba függvény) szélsőérté- 
két kerestük, azonban ott az error-backpropagation végrehajtása során egyre 
, jobb" hálózatot kaptunk. Tehát az MLP esetén a tanítás egy (látványos) 
folyamat, míg az SVM esetén inkább csak egy numerikus procedúra. 

Az (5.39)-(5.41) kvadratikus programozási feladat megoldására többféle 
módszer is ismeretes. Alkalmazható a gradiens módszer, a konjugált gradi- 
ens módszer, a Newton-módszer, a primál-duál módszer (lásd [10]). Számos 
programcsomag is rendelkezésre áll. Azonban a feladat fő nehézsége, hogy a 
gyakorlatban nagyon nagy méretű adathalmazzal kell dolgozni. Éppen a fel- 
adat mérete miatt adódnak jelentős nehézségek a numerikus számításoknál. 

Tehát (5.39)-(5.41) szerint egy N-dimenziós a vektort kell meghatá- 
roznunk. Itt N a tanító halmaz mérete, azaz a minden koordinátája egy 
tanító pontnak felel meg. A végeredményként kapott vektor sok koordinátá- 
ja egyenlő lesz nullával (csak azok nem, amelyekhez tartozó vektorok tartó 
vektorok). Osszuk a tanító halmazt két diszjunkt részhalmazra B-re és D- 
r (BnD-(d BUD — (1,..., ND). A D-hez tartozó pontok passzívak 
lesznek, ezekhez kezdeti értékként 0-t rendelünk. Az optimalizálást a B hal- 
mazon hajtjuk végre valamilyen ismert módszerrel (B az aktív halmaz, vagy 
munkahalmaz). Ha teljesülnek a Kuhn-Tucker-feltételek, akkor elértük az 
optimumot. 

Tehát elemezzük a Kuhn-Tucker-feltételeket. Ezek (5.34) és (5.35), azaz 


BE — 0, 1—1,...,N, (5.43) 


ahol 2) — ZATI var. Itt azonban sem a D;-ket, sem a €5-ket nem számoljuk 
ki. Tehát ezeket valahogyan ki kell küszöbölni. 

Felhasználjuk, hogy (5.30) alapján 8; — C — a;. Kihasználjuk azt is, 
hogy (5.41) miatt 0 £ az; £ C. Továbbá azt is ki kell használnunk, hogy €;- 
k alkalmas nem-negatív értékek. Végül a Kuhn-Iucker-feltételek következő 
alakjához jutunk: 


uf(m)21, ha az;—0, (5.44) 
vif(m)—1, ha 0c a;cC, (5.45) 
uf(a) £1, ha a;—C, (5.46) 
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ahol f(z) — 4 yjají(rj, 2) tb — (1, x) 1 b. Ezekben a kifejezésekben 
már minden összetevő numerikusan meghatározott. 

(5.44) igazolása. az — 0 esetén 8; — C, azaz €; — 0. Tehát (5.44) ekvivalens 
az (5.26) feltétellel. 

(5.45) igazolása. 0 € az; C C esetén B; — C — a; 5 0, amiből €£; — 0. Ezért 
(5.42) ekvivalens v;((x, w) 3 b) — 1-gyel. 

(5.46) igazolása. az — C esetén 8; — 0, azaz é; 2 0. Így (5.42) ekvivalens 
az (5.46) egyenlőtlenséggel. 

Térjünk most vissza a kiinduló feladathoz. Tehát kiválasztottuk a B 
munkahalmazt. B-n optimalizáltunk. Így B-n teljesülni fognak a Kuhn-— 
Tucker-feltételek. A kapott megoldás a teljes tanító halmazon is optimá- 
lis, ha a D-beli pontokra is teljesülnek a Kuhn-Tucker-feltételek. Ha létezik 
olyan D-beli pont, amelyre nem teljesülnek a Kuhn-Tucker-feltételek, akkor 
néhány ilyen pontot bevonunk B-be, viszont a 0 együtthatós B-beli elemeket 
kihagyjuk. Így egy új munkahalmazt képezünk. Ebben a halmazban az elő- 
ző megoldás nem optimális, hisz nem teljesülnek a Kuhn-Tucker-feltételek. 
Tehát optimalizáljunk itt! Ezzel szigorúan növelhető a W függvény értéke 
(azaz a ciklizálást is elkerüljük). Addig folytatjuk a munkahalmaz változ- 
tatását, ott optimalizálást, a Kuhn-ITucker-feltételek ellenőrzését, amíg az 
optimumhoz nem érünk. Ezt a heurisztikát szokták chunking módszernek is 
nevezni (azaz a mintából egy , nagy darabot", nevezetesen B-t, vágunk ki 
optimalizálás céljából). 


Seguential Minimal Optimization (SMO) 


Ebben a részben a Seguential Minimal Optimization (SMO) eljárást ismer- 
tetjük Cristianini és Shawe- Taylor [10], valamint Platt [37] művekre támasz- 
kodva. A Seguential Minimal Optimization kifejezést soros minimalizálásnak 
is fordíthatjuk. 

Az SMO módszer egy-egy lépésben az a vektor két koordinátáját tekinti 
csak változónak, és azok szerint optimalizál. Válasszunk két olyan a; értéket, 
melyek nem teljesítik a Kuhn-Tucker-feltételeket. Az egyszerűség kedvéért 
legyenek ezek a1 és a9. 

Mivel a 


N 
Vay 70 (5.47) 
1-1 


feltételnek teljesülnie kell az előző és a mostani lépésben is, és csak az első 
két koordináta változik, ezért 


régi 


mal -k y2a - yi aj 8i -k y2a5 (5.48) 
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Ha yi — y2, akkor a fenti egyenletet szorozva yi-gyel (és kihasználva, hogy 
vi csak —1 vagy 1 lehet), kapjuk 


ali szi az s a si - az, 
Innen fejezzük ki alat, használjuk ki, hogy 0 £ az; I C mindig szükséges, 
kapjuk 

0 c osi TÜne a az 4 C. 


Ebből 


a si új; az 8i C zL ag Z ag - az 8 , 
Végül még egyszer használva a minden lépésben szükséges 0 a a; c C 
relációt, kapjuk az alábbit 


régi 


maxf0, aj 8 4 azsi Ca aj a min(C, al 8 4 azési), (5.49) 


Ha most yi / y2, akkor az (5.48) egyenletet szorozva y1-gyel (és kihasználva, 
hogy v; csak —1 vagy 1 lehet), kapjuk 
aj — az — — aj si — az , 
Ebből most ; ; ; 
0 c aj" — az hag cc 


adódik. Végül az yi A y2 esetben 
maxf0, —al8i 3 az8ig a ag a miníC, C — als a azt), (5.50) 


Az (5.49) és az (5.50) egyenlőtlenségekbeni határokat az algoritmus során 
vágásra fogjuk használni. 
Az előző számítások azt mutatják, hogy ha érvényes az (5.48) egyenlőség, 
azaz 
aj — aj 8 4 yiyelaz 5 — az), (5.51) 


továbbá az J értékét az (5.49), illetve az (5.50) határok között választjuk, 
akkor ali értéke is (0, C]-be fog esni. Ezt fel fogjuk használni az aktualizá- 
lásakor. 

Emlékeztetünk, hogy a maximalizálandó célfüggvény 


W(a) Éz pa Esz ése azajyiyj K (7, tj). 


1-1 2, j—1 
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Ez két változó a koordináta (azaz ai és a2) esetén szintén W(a)-vel jelölve: 


al 


1 
2 
5 a3K22 — sa1a2 K12 — y1a1v1 — y2a2v2 1 Wo, 


a4.K11 2 


W(a) 7 1-0 





ahol 
N 
Szi TE Kibe éz E ENEK; 
j—3 


továbbá Wg tartalmazza az a1-től és a2-től nem függő W(a)-beli tagokat. 
(Kihasználtuk K( . , . ) szimmetrikus voltát is.) Vezessük még be az 


a1 Tsa -y 


jelölést. Az (5.51) egyenlőség miatt y konstans marad az és az aktualizálá- 
sakor. Ezzel 


1 2 
K 
292 22 


— s(y — sa2)a2 K12 — yi(y — sa2)vi — y2a2v2 ht Wo. 








1 
W(a) — y— sa2 ka 5 Kuly sa2)? 


A maximum szükséges feltétele az első derivált nulla volta. 


a . 9W(e9 








Jaz — 1—5--s(y—sa2) Ki1—a2K221-s5v1y1—y2v2—syK12-7-2a2 K12. 


Ebből syi — y2 felhasználásával kapjuk 











au iz s(Kn — K12)y 4 y2(vi—v2) 41— s 
? Ki11 4 K22 — 2Ki2 I 


Itt a peremfeltétel miatt "y-t fixen kell tartani a maximum keresés közben. 
Viszont az alábbi algebrai átalakításban természetesen "y definíciójára tá- 
maszkodunk. Mivel az elválasztó felület egyenletében szereplő függvény 


f(z) — DD woiK(z, x) 7 b, 


így egyszerű számolással 





ad j yo2(f(x1) — a1yiKi11 — a2y2 K12 — f(r2) — a1yi Ki12 Tt a2y2K22) 
Ki 4 K22 —2Ki2 
yiy2(Ku — K12)(aa 4 y1y2a2) 4 1 — yiy2 
Ki11 4 K22 — 2Ki2 Ni 
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. yo(f(x1) — f(z2)) — a1yiy2Knn — a2K12 tt a1y1y2 K12 a2.Kaz 
Ni Ki1 4 K22 —2Ki2 
yi1y2(Kii — K12)an 4 (Ki — K12)a2 41 — 12 

Kin 1 K22 —2Ki12 








ahol az rövidség kedvéért a ,régi" jelzőt elhagytuk. az együtthatóit össze- 
gyűjtve végül 


ye ( fregi( 71) E frégi( 2) — y1 4 42) 
Kit K22 — 2Ki2 


új —— régi 
za 
2 





adódik. Természetesen arra nincs garancia, hogy a megkapott a és al 
értékek benne vannak az előírt [0, C] intervallumban, ebben az esetben vágni 
kell, azaz 0-val vagy C-vel egyenlővé kell tenni. A vágás konkrét menetét 
korábban elemeztük. Továbbá minden egyes lépésben használni kell az addig 
érvényben lévő f döntésfüggvényt, ezért mindig meg kell határozni b aktuális 
értékét is. 

Egy lehetséges SMO algoritmus tehát a következő. 


1. Kiválasztjuk a két koordinátáját, például c1-et és a2-t, melyek nem 
teljesítik a Kuhn-Tucker-feltételt. 


2. Legyen 


L— max(0, oz osi as) , H— minfC, C 4 azósi ag), ha y1 Av, 


L— max(0, aZ§ 4 az8i — C), H— min(C), aZ8 4 az si), ha y1—y2. 





3. Legyen 
aj — arégi 8 y2( fregi(T1) kzt Irégi( 72) —-yT 2) (5.52) 
£ £ Ki11 1 K22 — 2K12 
4. A vágás: 
H, ha az H, 
a — do, ha L c al c H, 
L, ha ag £ L. 
5. Legyen 


aj — az 8 4 yyya(az8 — aj). (5.53) 
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6. Minden lépés után újra kell számolni bo értékét olyan módon, hogy a 
Kuhn-Tucker-feltételek teljesüljenek ([37]). 
Ha a1 nincs a vágási határon, akkor legyen: 


pú — — fregi(a1) 4 yi — vi (ag — a 8) Ki — y2(am — az) Kig 4 brési , 


(5.54) 
Ha az nincs a vágási határon, akkor legyen: 
pó — — frggi(m2) 42 — vi (at? — aj 8) Kon — yo(az — az) Ko 7 bég. 
(5.55) 


Ha sem ca, sem a2 nincs a vágási határon akkor a két fenti bí érték 
egybeesik. Ha mind a1, mind az a vágási határon van, akkor legyen b 
új értéke a fenti két b számtani közepe. 


7. Kiválasztjuk a két újabb koordinátáját, melyek nem teljesítik a Kuhn— 
Tucker-feltételeket. A fenti algoritmust végrehajtjuk ezekre. 


8. Az eljárást addig folytatjuk, ameddig a összes koordinátájára nem 
teljesülnek a feltételek. 


Léteznek heurisztikák arra vonatkozóan, hogy a melyik két koordinátáját 
vonjuk be a folyamatba. Az SMO algoritmus előnyeiről lásd Platt [37]. 


5.3. SVM regressziószámításra 


5.3.1. Veszteségfüggvények 


A matematika klasszikus területein elterjedt a négyzetes távolság használata. 
Ez jelenik meg többek között az L2 és az la terek esetén, a numerikus mate- 
matika legkisebb négyzetes módszerében, a valószínűségszámításban pedig a 
gaiban rejlik. A statisztikában a klasszikus regresszióanalízis is ezt használja. 
Ennek alakja 


(y aa f(x, a), 


ahol az xz inputhoz y output tartozik. Azonban a robusztus statisztikai 
módszerek más veszteségfüggvényeken alapulnak. Az SVM regresszió ese- 
tén négyzetes veszteségfüggvény helyett a robusztus statisztikában használt 
veszteségfüggvényeket alkalmazzuk. Ezek közül tekintsük az €-inszenzitív 
veszteségfüggvényt. Azaz az €-nál kisebb értékű eltérésekre nem vagyunk 
, érzékenyek". Az €-nál nagyobb mértékű eltéréseket pedig nem négyzetesen, 
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hanem lineárisan, pontosabban szólva az eltéréstől c-nal kisebb mértékben 
vesszük figyelembe. Azaz 

Le(y— f(x, a)) — ly— f(z, 00le 
a lineáris e-inszenzitív veszteségfüggvény, ahol 
0, ha [f(r,a)— yi e, 
[f(z,a)—yl—e ha lIf(za)—yl- e, 


Iy— f(x, 09le — ( 


lásd 5.6. ábra. 








5.6. ábra. Az e-inszenzitív veszteségfüggvény 


Ebben a részben csak ezt a veszteségfüggvényt fogjuk tekinteni. Léteznek 
és használnak még más típusú veszteségfüggvényeket is. 


5.3.2. A lineáris regresszió 


Induljunk ki a legegyszerűbb feladatból, a lineáris regresszióból. Ez egyválto- 
zós esetben egyenes illesztését jelenti a mérési pontokra. d-dimenziós esetben 
pedig az alábbi alakú függvény illesztését: 


d 
— 9 vizi 2 b — (px) kb, 
2-1 
ahol x — (x!,...,r9)! ERT, ap — (bi, ...,4a)" € R?. 


Legyenek (21, yi), . . . , (CN, UN) a megfigyelések (adatok, tanító pontok), 
ahol x; € RÍ, v; e R, i — 1, . . ., N. Ekkor a tapasztalati rizikó: 


1 
Remplib, b) — FT — (ab, zi) — b). 
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Ezt kellene minimalizálni. 

Ennek megoldására Tank [49] a következőt javasolta. Vezessük be a 
nem-negatív (E. és (EH segédváltozókat. Ezek segítségével mérjük az 
eltéréseket pozitív, illetve negatív irányban, azaz tekintsük az alábbi felté- 
teleket. 


—(b,r)—baCe:-et;, i—1,..., 
(ap, x)-b—wuSCeiéi, i—1,..., 
€; 20, i—1,..., 

CG 2z0, VE1 


(5.56) 


Belátható, hogy az Remp(4, b) függvény ab és b szerinti minimuma ugyanott 
lesz, mint a DE 1(€; 3 €7) függvénynek az (5.56) feltételek mellett a €5, €7, 
ap és b változók szerint vett minimuma. 

A fenti probléma kezelhetővé tételére Vapnik a következőt javasolta. Mi- 


nimalizáljuk az (5.56) feltételek esetén a 


N 


(4, §.§)-C (e 16) 1 5 (ab, ap) 


1-1 


függvényt. 

Ez az ismert konvex optimalizálási probléma, amire alkalmazhatjuk a 
Kuhn-Tucker-tételt. Vezessük be az az, a, Bi, 87 nem-negatív multipliká- 
torokat. Ezekkel a Lagrange-függvény: 


TIEKZKZSSE RÉSZT KÉR e 
BZNAKSD 5 (4. 4b) 122 éslujs (ap, xs) — b— ez — €7) A 


Det 1 (ab, az) 4 b— 61 — €7)— 2 Bit — 2), BIE. 


Ennek a függvénynek kell a nyeregpontját meghatározni, azaz ap, b, €z, 7 








szerint minimalizálni, míg az, az, Bi, B; szerint maximalizálni. A minimum 
szükséges feltétele a deriváltak eltűnése. 


OL 
0 — 77 ége ap — 2. (oszi — ar), (5.57) 


ÖL 
0 — 08; sű. Aj Bis (5.58) 
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OL xk xk 
al, 8 


z 


Alkalmazva az (5.57) egyenlőséget: b — D) (air; — ajxi). Látjuk, hogy 
(5.58)—(5.60) miatt L képletében sok tag kiesik, kapjuk 


N N 
L(w.b.€.E vasat B.B) — Y uas— ap) — Y eilai tag) — 5 (bp). 
gek ési 


Ebből pedig, a kieső változókat nem jelölve, és L helyett W-t írva 
N N 
W(a, a) — Dyi(a — aj) — DD si(an 4 aj) — 
i—1 i—1 


1 A 
és 2 (a — ap) (aj — az) (xi, 2) (5.61) 
i,j—1 


a maximalizálandó függvény. Tehát maximalizálandó az (5.61) képletbeli W 
kvadratikus függvény a 


Ús (5.62) 
0£ay CC, i—1,...,N, 


ÜSS e akost 
feltételek mellett. Ezeket a feltételeket az, a7, B:, 87 nem-negativitásából 
az (5.58)—(5.60) egyenlőségek figyelembe vételével kaptuk. Ezen kvadratikus 


programozási feladat megoldásával kapjuk az optimális a? és a"? értékeket. 
Ezekkel 2 fenti kifejezéséből: 


49 — 9 (09 — az) az. 


Az optimális b értéket Remp(4", b) b-szerinti minimalizálásával kapjuk. Végül 
a regressziós hipersík a következő 


N 


f(2)— 3 (ap — a(z, mg) 44 b. 


1-1 
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5.3.3. Nem-lineáris függvények közelítése 


Ha nem lineáris függvényt akarunk közelíteni, akkor a feladatot nem-lineáris 
transzformációval megpróbáljuk visszavezetni lineárisra. Viszont, hasonló- 
an az osztályozáshoz, most is csak a szereplő vektorok belső szorzata lép 
fel, nem maguk a vektorok. Tehát transzformáció és belső szorzat helyett 
egyből használhatunk magfüggvényeket. Ezzel megoldhatjuk a nem-lineáris 
regresszió (függvényközelítés) feladatát. 

Legyen tehát K a magfüggvény. Ekkor (5.61) alapján a célfüggvény 


N N N 
kk kk k 1 k ak 
W(a, a) —Y  vilai—aj) eilai-Hag)— 5 2 (ai—ai)(aj—oj) K (as, aj). 
ez1 1-1 2, j—1 


Ezt kell maximalizálni az (5.62) feltételek mellett. A maximumhelyet jelölje 


a), az, i—1,2,..., N. Az illesztett függvény alakja pedig 
N 
Hage gel a kis ega tb 
i—1 


lesz. 
Megjegyezzük, hogy az SMO eljárás alkalmas változata működik SVM 
regresszióra IS. 


Magfüggvények előállítása 


Függvény illesztése (azaz regressziószámítás) esetén alkalmazhatjuk azokat a 
magfüggvényeket, amelyeket az osztályozás esetén már megismertünk. Mivel 
ezek között van az RBF esetén használt, valamint a szigmoid függvényt 
tartalmazó, így megállapíthatjuk, hogy az SVM segítségével megoldhatunk 
olyan feladatokat, amelyekre korábban az RBF-et és az MLP-t alkalmaztuk. 
Hamarosan látni fogjuk, hogy az SVM segítségével megoldható számos, a, 
matematikai analízis, a numerikus matematika, a számítógépes grafika és a 
statisztika tárgykörébe eső feladat is. 


Spline interpolációt előállító magfüggvények 


A spline a numerikus matematikában gyakran használt közelítés. A spline 
szakaszonként polinom, folytonos (bizonyos esetekben a deriváltjai is folyto- 
nosak valamilyen rendig) és tipikusan átmegy a, kijelölt pontokon. 
Legyen 
a—to Cti Cto c ::: Ctm Ctmyi—b 
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az la, b] intervallum egy beosztása. Az f függvényt d-edfokú spline-nak ne- 
vezzük, ha f az [a,b] intervallumon d — 1-szer folytonosan differenciálható, 
és minden [t;, t:1] intervallumon (legfeljebb) d-edfokú polinom. Legyen 


új (x—t;)", hag5t;, 
0, egyébként. 


Világos, hogy az (z—t;)! függvény d-edfokú spline. Egy legfeljebb d-edfokú 
polinom is d-edfokú spline. Másrészt spline függvények lineáris kombinációja 
is spline. Tehát 


d m 
12) —- 9 aa 9 bi(z—t)A (5.63) 
r-0 1-1 


d-edfokú spline. 
A d-edfokú spline approximációt tehát (5.63) alakban keressük. Az x 
számhoz rendeljük az alábbi (m -- d -- 1)-dimenziós vektort 


TB u — (1,x,..., a, (x—t1)§ , . . . , (z — tm). 

Tehát az f spline függvény az 

f(2) — (a, u) 
belső szorzat alakban áll elő, ahol a — (ag, .. . , ag, ba, ..., bm). Tehát az 
alábbi magfüggvény spline interpolációt állít elő: 

d m 
K(x, x1) — (u, u) — m ax kt 9. kő — ti (am - t)2 . 

r—0 i—1 
Megjegyezzük, hogy Vapnik [49] ekvidisztáns alappontok esetén ajánlja a 
spline approximációt: 

Tér zbnió tt——, 171,...,m, 
m 


a [0, a] beosztása. 


B-spline interpolációt előállító magfüggvények 


A számítógépes grafikában közismert, görbék előállítására használt módszer 
a B-spline interpoláció. A 


ZT 1, ha lul £ 0.5, 
4 2 Ai Söze 
8 0, ha lul 5 0.5 
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függvényt Bo spline-nak (vagy 0-adrendű spline-nak) nevezzük. A magasabb 
rendű B-spline függvényeket rekurzíven definiáljuk. A d-edrendű Bg spline 
függvény a Bg-1 spline és a Bo spline konvolúciójaként adott: 


le e) 
Bg(u) s J Bg-1(u — t) Bo(t) dt. 
—oo 
Ezek alapján látszik, hogy a Bg függvény d— 1 számú, független, a [—0.5, 0.5] 


intervallumon egyenletes eloszlású valószínűségi változó összegének sűrűség- 
függvénye. Az első néhány Bg függvény az 5.7. ábrán látható. 








1 si By 1 B, 
Sz Ó Kszáá 
1 B, 1 By 
OT 0 1 TEK 


5.7. ábra. A B4 spline függvény, d — 0, 1, 2, 3 


A Bg függvényre d — oo esetén ismeretes az alábbi közelítés (mely már 
kis d-k esetén is elég jó): 


I 6 6u? 
Bg(u) s port arj (5.64) 


Ez a formula a centrális határeloszlás-tételből adódik, a közelítő függvény 
egy alkalmas normális sűrűségfüggvény. 





5.5. Tétel. 





Ba(u) — y a 18 57 ( -k . — 9 : (5.65) 


2 


Bag spline függvényekkel a függvényközelítés 


f(z,8) — 3 BiBa(z — ti) 
1-1 
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alakú, ahol t;, i— 1,...,n, a sorfejtés csomópontjai. Ez alapján a B-spline 
interpolációhoz alkalmas magfüggvény: 


n 
K(x, xi) — sa Ba(z — tk) Bali — tk). 
k—1 
Fourier-sort előállító magfüggvények 


A matematikai analízisben jól ismert a függvények Fourier-sorba fejtése, azaz 
a szinusz és koszinusz függvényekkel való kifejezése. Rendeljük hozzá az x 
valós számhoz az alábbi (2n -- 1)-dimenziós u vektort: 


IGENE ; 
u — (őnői cosa, 005 na 8 


V2 


Rögzített z € R esetén a Fourier-sor (egy szelete) tekinthető (2n -- 1)- 
dimenziós térbeli alábbi belső szorzatnak: 


f(T) — (a, u) — 7) Tt 9 (ax sin kz 2 b, cos ka). 
k—1 


Ebben a térben a belső szorzat: 


1 n 
Kn(2, xi) — at y (sin kr sin kg; -- cos kx cos kx;) — 
k—1 


1 n 
s őrsi söt z 


ki sin (B (z — 2)) 


sin (e) 


Itt a trigonometrikus sorok elméletében használt Dirichlet-féle magfüggvény- 
hez jutottunk. Ezzel a magfüggvénnyel az SVM az alábbi alakú függvénykö- 
zelítést adja: 





N 
TE ÖVES ÖK]: 
2-1 


Összefoglaljuk az eddig ismertetett magfüggvényeket. 
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Közelítés típusa Alkalmazott magfüggvény 

Lineáris regresszió (Tr, 1) 

Polinomiális K(x, x) — ((xz, 3) 41) 

RBF Kis egsepliss[e-a 


Kétrétegű perceptron  K(xg, x;) — tanh(Bo(a, xz) 1 Bi) 


s; 2n--1 
Fő sin e-t 
Fourier-sor izlése ná km 0) 


sin ( 750) 


spline interpoláció Fé a" at rlz — tp)4 (xi — tj)i 





B-spline interpoláció  974-1 Bal — tk) Ba(x; — tr) 











5.1. táblázat. Függvényközelítésre alkalmazott mag- 
függvények 
5.3.4. Többváltozós függvények közelítése 


Ismeretes, hogy egyváltozós magfüggvények szorzata többváltozós magfügg- 
vény lesz. Legyen tehát a közelítendő függvény d-változós. Ekkor 


d 
K(e, y) zi I[[ Keala", y") 
k-1 
alkalmas magfüggvény, ahol m — (x!,...,x9), y — (y!,...,y9), Kk pedig 


egyváltozós magfüggvény minden k-ra. 


5.4. Numerikus példák 


5.6. Példa. Két halmaz szétválasztása SVM segítségével megvalósítható. 
Legyen az egyik halmaz 100 elemű minta kétdimenziós, (0,0)! várható érték 


vektorú és 
08 0 
0 0.8 


szórásmátrixú normális eloszlásból. A másik halmaz pedig ugyanilyen minta, 
azzal a különbséggel, hogy ott a várható érték vektor (2, 2)! . 

Az ábrákon x jelöli az első, o pedig a második halmaz elemeit. A meg- 
konstruált elválasztó görbék különböznek. 

Az 5.8. ábrán lineáris magfüggvényű és legkisebb négyzetes módszerrel 
megalkotott SVM szeparálása szerepel. Mivel az aktuális problémában az 
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elméletileg optimális elválasztás hipersíkkal valósítható meg, így az SVM 
meg is találta az optimális hipersíkot. 











5.8. ábra. Két normális eloszlás szeparálása lineáris 
5SVM-mel 


Az 5.9. ábra (a) részén kvadratikus magfüggvényű és kvadratikus progra- 
mozással betanított SVM szeparálása szerepel. Az 5.9. ábra (b) részén pedig 
harmadfokú (polinom) magfüggvényű és SMO módszerrel betanított SVM 
szeparálása szerepel. 





-3 











RA RA RA -4 1 1 R R 3 
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5.9. ábra. Két normális eloszlás szeparálása (a): másod- 
fokú, ill. (b): harmadfokú SVM-mel 


Az 5.10. ábra (a) részén Gauss-féle radiális bázis függvény magfüggvé- 
nyű és kvadratikus programozással betanított SVM szeparálása szerepel. 
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Az 5.10. ábra (b) részén pedig MLP magfüggvényű (pontosabban szólva tan- 
gens hiperbolikus függvényt használó) és SMO módszerrel betanított SVM 
szeparálása szerepel. 
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5.10. ábra. Két normális eloszlás szeparálása (a): RBF, 
ill. (b): MLP SVM-mel 


Megállapíthatjuk, hogy mind a négy utóbbi szeparálás jó a , kritikus ré- 
szen", azaz ott, ahol a két minta egymásba átnyúlik. Viszont ott, ahova ak- 
tuálisan nem esnek mintapontok, már a különböző magfüggvények a saját 
speciális alakjuknak megfelelően folytatják a szétválasztást, és nyilvánvalóan 
eltérnek az optimális szeparáló görbétől. 


5.7. Példa. Az f(x) — 1? — x függvényt a [—2,2] intervallumon figyeljük 
meg, a megfigyelések —2 és 2 között 81 db ekvidisztáns alappontban történ- 
nek, de a függvényértékeket csak hibával terhelten tudjuk mérni. A mérési 
hiba 0 várható értékű, 0.5 szórású (független) normális eloszlású. Viszont 
közelíteni a mérési hibák nélküli függvényt kell! 


Az 5.11. ábra (A) részén látható az SVM által adott közelítés. Gauss-féle 
(azaz RBF) magfüggvényt használtunk. 


Az 5.11. ábra (B) részén a hagyományos RBF által adott közelítést áb- 
rázoltuk. Az RBF-ben Gauss-féle magfüggvényt használtunk. 
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5.11. ábra. Az f(r) — r?— r függvény közelítése mérési 


hibák esetén. (A) SVM Gauss-magfüggvénnyel; (B) RBF 
Gauss-magfüggvénnyel 


Az 5.12. ábra (A) részén látható olyan SVM által adott közelítés, amely- 
ben ötödfokú polinom a magfüggvény. 
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5.12. ábra. Az f(x) — r? — x függvény közelítése mé- 
rési hibák esetén. (A) SVM ötödfokú polinom magfügg- 
vénnyel; (B) egy rejtett rétegű MLP 


Az 5.12. ábra (B) részén hagyományos MLP által adott közelítés sze- 
repel. Itt egy rejtett réteg van 12 neuronnal tangens hiperbolikus transzfer 
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függvénnyel. A kimeneti rétegben egyetlen neuron található lineáris transzfer 
függvénnyel. A tanítás konjugált gradiens módszerrel történt. 


5.8. Példa (Zajszűrés SVM-regresszióval). A képalkotó berendezések leké- 
pezési folyamata nem tökéletes, minden esetben hibával terhelt. A képalkotás 
során jelentkező hibákat forrásuk szerint számos csoportba sorolhatjuk. 


— Geometriai hibák. Fizikai tulajdonságai miatt egy lencserendszer leké- 
pezése radiálisan változik. A lencse optikai tengelyétől távol eső objek- 
tumok képe nem a fókuszsíkban áll elő, így életlenség és a geometriai 
struktúrák torzulása jelentkezhet (például egyenes struktúrák meggör- 


bülhetnek). 


— Szisztematikus hibákról beszélünk, ha egy képhiba a leképező rendszer- 
rel készült minden képen ugyanott jelentkezik. Előfordulhat például, 
ha a leképező rendszer valamely lencséje megsérül (például karcolás) 
vagy a CCD-chip valamely fényérzékelő eleme meghibásodik. Utóbbi 
esetben a képek egy adott (iz, j) indexű pixele minden esetben fekete. 


— Kvantálási hibák. A látható fény elektromágneses hullám, melynek 
lehetséges intenzitásai folytonosnak tekinthetők. A digitális képeken 
csak diszkrét intenzitásokat, színeket ábrázolhatunk, így a mért inten- 
zitásértékeket kvantálni kell. A képtérről érkező különböző erősségű 
fényimpulzusokat jellemzően 256 diszkrét értékre képezzük le, ami je- 
lentős információveszteséget jelent. Ha képet készítünk egy olyan kép- 
térről, amely sötét és világos régiókat is tartalmaz, a sötét és világos 
régiók részletgazdagsága kisebb, mint abban az esetben, amikor csak 
a sötét vagy csak a világos régióról készítünk képet. 


— Statisztikus hibák. A képeket feldolgozó félvezető elektronika működé- 
séből a termikus zaj nem küszöbölhető ki. A termikus zaj elsősorban a 
gyenge elektromos impulzusok erősítésénél fejti ki hatását, így erősítő- 
zajnak is nevezzük. Eredményeként, ha egy homogén színű és megvilá- 
gítású felületről képet készítünk, a kép intenzitásértékei különböznek. 


Egy képalkotó rendszer hibáinak utófeldolgozással történő eltávolítása 
a digitális képfeldolgozás alapvető feladatának tekinthető. Ahhoz, hogy a 
hibákat, zajokat megfelelően el tudjuk távolítani, kellő mennyiségű informá- 
cióval kell rendelkeznünk a zaj jellegéről. Az egyik lehetséges megközelítés- 
ben a képalkotó rendszert fekete doboznak tekintjük, és feltételezzük, hogy 
rendelkezünk a képalkotó rendszerrel készült zajjal terhelt képekkel, vala- 
mint a képek tartalmának egzakt leírásával, vagy olyan képekkel, amelyek 
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ugyanazt a szcénát ábrázolják, azonban elfogadhatóan kevés hibával operáló 
képalkotó rendszerrel készültek. Az ilyen képek készítésére, s a képek alap- 
ján a megfelelő korrekciós módszerek kidolgozására kalibrációként is szokás 
hivatkozni. 

Az etalonnak tekinthető és zajjal terhelt képek alapján a Support Vector 
Regresszió (SVR) eszközeivel egyszerűen dolgozhatunk ki a hibákat korrigáló 
eljárást. 

Az egyszerűség kedvéért szürkeskálás intenzitásképekkel dolgozunk és fel- 
tételezzük, hogy a kép intenzitásai a [0,1] tartományba vannak normálva, 
azaz egy S sorból és O oszlopból álló K képet K e [0,1]19"9 módon ábrázo- 
lunk. Jelen szakaszban csak a statisztikus hibák javítására alkalmas modellt 
készítünk. Megjegyezzük azonban, hogy alkalmas módosításokkal a módszer 
alkalmas kvantálási, szisztematikus és geometriai hibák korrigálására, is. 

Tegyük fel, hogy rendelkezünk N darab etalon képpel (K7 i — 1, . . . , N) 
és rendre ugyanazon szcénát ábrázoló zajjal terhelt képpel (K 12—1,..., N). 
Utóbbiakat a vizsgált képalkotó rendszerrel készült képeknek tekintjük. 

A zajszűrést megvalósító modell előállításának, és zajjal terhelt képek 
szűrésének lépéseit az alábbi pontokban foglaljuk össze. 


1. Feltételezzük, hogy a zajjal terhelt képeken egy (iz, j) koordinátájú pi- 
xel valódi intenzitása meghatározható, de legalábbis jól becsülhető an- 
nak lokális környezete alapján. 


2. Az SVR alkalmazásához tanító halmazt készítünk úgy, hogy a ren- 
delkezésünkre álló zajjal terhelt képek minden pixeléhez egy tanító 
vektort rendelünk. 


3. Minden tanító vektor v € [0,1]2$ x [0, 1] formában áll elő. Legyen v 
a K képen az (iz, j) indexű képponthoz rendelt tanító vektor. Ekkor 
v első 25 koordinátája az (zi, j) indexű képpont lokális, 5 x 5 méretű 
környezetében található intenzitásokat tartalmazza. A célváltozó, azaz 
a 26-odik koordináta az etalon K kép (i, j) indexű képpontjának az 
intenzitása. 


4. Elkészítjük a tanító adatbázis alapján a regressziós modellt. 


5. Egy új, zajjal terhelt kép szűrése során sorra vesszük annak minden 
elemét, és az (i, j) indexű pixel feldolgozásakor a pixel lokális 5 x 5 
méretű környezetéből előállított 25 elemű vektor helyén kiértékeljük a 
regressziós függvényt. A szűrt kép (iz, j) pixele az így kapott értéket 
veszi fel. 
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A módszert szavakban úgy foglalhatjuk össze, hogy a regressziós függ- 
vény , megtanulja", hogy egy zajos pixel és annak zajos környezete függvé- 
nyében a pixel milyen eredeti értékkel rendelkezhetett. 

A módszer működését a következő példával demonstráljuk. Négy eta- 
lon képpel dolgozunk, melyekhez zajjal terhelt képeket állítunk elő. A hoz- 
záadott zaj két komponensből tevődik össze. Az első komponens erősítő- 
zaj, amely fizikai okokra visszavezethetőleg Gauss-eloszlású additív zajként 
modellezhető. Másrészt megjelenik egy nem-lineáris , salt-and-pepper" zaj, 
amely valamilyen valószínűséggel egy pixel értékét 0-ra vagy 1-re állítja. A 
zajos képek Ki j pixele így a következő értéket veszi fel: 


Ki j — SAP(K;j A e), 


ahol e egy G(0, 0.15) eloszlású véletlen szám, míg a SAP függvényt az alábbi 
módon definiáljuk: 


0, ha u a 0.15, 
SAP(x)—S1, ha us 0.85, 
x, egyébként. 
A fenti definícióban u egy 4(0,1) eloszlású véletlen szám (4(0,1) a (0,1) 


intervallumon egyenletes eloszlást jelöli). Megjegyezzük, hogy a példában a 
képekhez adott zaj igen erős zajnak tekinthető (5.13. ábra). 





(a) Egy etalonkép (b) Azetalonképegy (c) A zajjal terhelt (d) A zajjal terhelt 
részlete kép kép egy részlete 


ha 





5.13. ábra. Egy etalon kép és annak zajjal terhelt vál- 
tozata 


A nem-lineáris SVR-modell megalkotása során ki kell választanunk a 
használni kívánt magfüggvényt. Választásunk a Gauss-magfüggvényre esett, 
melynek szórás paraméterét 1-re állítjuk. Kiemeljük, hogy a Gauss-magfügg- 
vény választása nincs kapcsolatban azzal, hogy a zajos képeken megjelenő 
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erősítőzajt Gauss-eloszlású véletlen számmal modellezzük. A tapasztalat azt 
mutatja, hogy a Gauss-magfüggvény jól használható tetszőleges SVR. prob- 
lémák megoldására. 

A modell előállását követően vizsgáljuk meg kvalitatívan, hogy működik- 
e a megoldásunk. Egy újabb képet tekintünk, melyet a korábbiakhoz azonos 
zajjal terhelünk. A zajszűrés során a kép minden pixelének lokális környe- 
zetéből egy 25 elemű vektort állítunk elő, s a korábban kapott regressziós 
függvény kiértékelésével meghatározzuk a pixelhez rendelendő, immár zaj- 
mentesnek tekintett értéket. Illusztrációként a 5.14. ábrán látható egy zajos 
tesztkép, illetve a szűrés eredménye. Ahogy az ábrán látható, a szűrés való- 
ban működik, a zaj mértéke jelentősen csökkent. 





E sss 7 E . " 
(a) A zajjal terhelt (b) A zajjal terhelt (c) A szűrés eredmé- (d) A szűrt kép egy 
tesztkép tesztkép egy részlete nyeként előálló kép részlete 


5.14. ábra. A zajjal terhelt kép és a szűrt kép 


A Gauss-magfüggvény szórás paraméterét c — 1 módon választottuk 
meg a regressziós függvény illesztése során. Ez a választás azonban esetle- 
ges. Általánosságban elmondható a, kernel-módszerekről, s így az SVR-ről 
is, hogy nem tudhatjuk, mely magfüggvény milyen paraméterekkel hozza a 
legjobb eredményeket. Ahhoz, hogy elfogadható beállításokat találjuk, több 
különböző magfüggvényt és azok különböző paraméterezéseit is ki kell pró- 
bálnunk. Ezt a folyamatot modellillesztésnek nevezzük. Ahhoz, hogy az egyes 
magfüggvények és paraméterezéseik között kvantitatívan különbséget tehes- 
sünk, a szűrt kép jóságát valamilyen mérőszámmal kell jellemeznünk. Ese- 
tünkben ez a mérőszám kézenfekvő módon a szűrt kép és a megfelelő etalon 
kép euklidészi távolsága lehet. 

A modellillesztés során elvégezzük Gauss-magfüggvénnyel a, regressziós 
függvény illesztését, c — 10, k e (—5,—4,...,5) paraméterekkel. A mo- 
dellek jellemzésére kiszámítjuk a szűrt kép és az etalonkép távolságát, s az 
eredményeket grafikonon ábrázoljuk (5.15. ábra). 
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Az illesztett SVR-modell jósága 


Euklidészi távolság 
3 
o 
o 
o 


1e-03 1€-100 1e€403 
o 


5.15. ábra. Az illesztett SVR-modell jósága. Az olvas- 
hatóság kedvéért a tengelyeken logaritmikus skálát hasz- 
náltunk 


Ahogy az ábráról leolvasható, az előző szakaszban tett c — 1 választá- 
sunk nem a lehető legjobb: a — 0.001 választással az etalon kép és a szűrt 
kép euklidészi távolsága kisebb. Másként fogalmazva a, zaj eltávolítása haté- 
konyabb, ha a Gauss-magfüggvény szórás paraméterét 0.001-re állítjuk. 

Megjegyezzük, hogy egy valós alkalmazásban több, lehetőleg különböző 
struktúrákat és mintázatokat tartalmazó tanító képet és több teszt képet kell 
használnunk az SVR-modell illesztése során. A geometriai és szisztematikus 
hibák pozíciófüggők, így azok kezeléséhez a 25 elemű sajátságvektort ki kell 
egészítenünk a sajátságvektorhoz tartozó pixel koordinátáival. Kvantálási és 
színhibák kezeléséhez a pixelek környezetét leíró vektorokat színinformáció- 
val egészíthetjük ki. 


5.5. Feladatok 


1. Igazoljuk az SMO algoritmusban a b aktualizálására vonatkozó képletek 
alkalmas voltát. Azaz, hogy minden lépés után az újra számolt ba értékkel 
a Kuhn-Tucker-feltételek teljesüljenek. 


2. (a) A négyzetes c-inszenzitív veszteségfüggvényt az alábbi módon defi- 
niáljuk. 
L(y— f(z,a)) — ly— f(z, a]. 
Ábrázoljuk az Iz]2 függvényt! 
(b) A Huber-féle veszteségfüggvény az alábbi. Legyen c 5 0 fix, 


L Ez 5 si clf(x,a)—y—-S, ha If(x,a—yl 5 c, 
(ly f(a a)]) hee ha If(z, 00) — yl £ c. 


Ábrázoljuk az X(Ix]) függvényt! 
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3. Hasonlítsuk össze a lineáris c-inszenzitív veszteségfüggvényt, a négyze- 
tes €-inszenzitív veszteségfüggvényt és a Huber-féle veszteségfüggvényt! 
Ábrázoljuk ezeket közös koordinátarendszerben! 


4. Oldjuk meg a lineáris függvényközelítés feladatát a négyzetes €-inszen- 
zitív veszteségfüggvény esetén! Azaz írjuk fel a minimalizálandó veszte- 
ségfüggvényt, alkalmazzuk a Kuhn-Tucker-tételt a kapott feltételes mi- 
nimum problémára, ebből vezessük le a kvadratikus programozási fel- 
adatot! 


5. Oldjuk meg a lineáris függvényközelítés feladatát a Huber-féle veszteség- 
függvény esetén! Azaz írjuk fel a minimalizálandó veszteségfüggvényt, 
alkalmazzuk a Kuhn-Tucker-tételt a kapott feltételes minimum problé- 
mára, ebből vezessük le a kvadratikus programozási feladatot! 


6. (a) Lássuk be, hogy egy függvény legfeljebb egyféle módon írható fel 
(5.63) alakban! 


(b) Lássuk be, hogy minden d-edfokú spline felírható (5.63) alakban! 


7. Adott pontokra illesszünk elsőfokú spline-t! Ábrázoljuk a kapott ered- 
ményt! 


8. Igazoljuk az (5.64) közelítést! Ábrázoljuk a Bg spline függvényt és a 
közelítését! 


9. Igazoljuk az 5.5. Tételt! 


10. Vizsgáljuk az SVM-mel való szeparálást! Állítsuk valamilyen módon elő 
a tanító pontok A és a B halmazát, és szeparáljuk SVM-mel! A két hal- 
maz lehet 2- vagy 3-dimenziós, véletlen vagy determinisztikus módon 
megadott, akár egymásba átnyúló is. Alkalmazzunk különböző magfügg- 
vényű SVM-eket! Ábrázoljuk az eredményt! 


11. Hasonlítsuk össze az MLP, az RBF és az SVM szeparálását numerikus 
példákon! 


12. Közelítsük az alábbi függvényeket SVM segítségével! 
f(xy—a?, — f(xy—-logz,  f(xy—sinx, f(x)— (sinx)/x, 


fly —a? ay, — f(x) —29/y. 
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Válasszunk alkalmas tartományt, ahol fenti függvényeket közelíteni akar- 
juk! Generáljunk különböző számú és sűrűségű tanító pontokat! Vizsgál- 
juk külön azt az esetet is, amikor a függvényértéket csak valamilyen 
véletlen hibával tudjuk megfigyelni (azaz a tanító pontok ilyenek, de a 
közelítendő függvény a hiba nélküli)! Ábrázoljuk az eredményt! 


13. Hasonlítsuk össze az MLP, az RBF és az SVM hálózatok függvény app- 
roximálását numerikus példákon! 


6. fejezet 


Appendix 


6.1. Néhány matematikai fogalom 


6.1.1. Vektorok és mátrixok 


Transzponálás. . Az n-dimenziós euklideszi tér (IR" ) vektorait oszlopvekto- 
roknak tekintjük, a ! segítségével jelölt transzponáltjaik tehát sorvektorok: 
y" — (yi 2... 9n). 

Belső szorzat és diadikus szorzat. Legyen z — (x1,2,...,xn)! és y — 
— (41, y2,...,yn)! két IR"-beli vektor. Az (x,y) — x! y skalár a két vektor 
belső szorzata (skaláris szorzata), míg az ru! n x n méretű mátrix a két 
vektornak a diadikus szorzata: 


y1 

y2 ká 
xry-( 11 D2 ... xn ) : za 

j i—1 

Un 
T1 tT1iyi1 T1y2 -... Tiyn 

T 12 D2yi $2y2 -.-.- T2yn 
ry —[ . [(w 92 -.. m)—[ . . 

Xn ínyi Tny2 ... Tnyn 


Merőleges (ortogonális) vetítés. . Legyen y az n-dimenziós euklideszi tér egy 
vektora, V pedig egy altere. Ekkor egyértelműen létezik egy vo € V, amely 
esetén y — vo merőleges V-re (azaz merőleges V minden elemére). vo az 
y vektor merőleges vetülete V-re, y — vo pedig a merőleges (ortogonális) 
komplementere (lásd 6.1 ábrát). vo van y-hoz a legközelebb a V altérből: 
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6.1. ábra. Az y vektor merőleges vetítése a V altérre 


min ) (yi — vi) 
17 


Tsi esáfjözeás az 2 
— min [/y vil" — Ily — voll 


Ez a legkisebb négyzetek elvének az alapja. 

Sajátérték, sajátvektor. . Legyen A n x n-es mátrix, v € R", A e TR. Ha 
Av — Av 

teljesül, és v - 0, akkor v-t az A sajátvektorának, A-t pedig sajátértékének 

nevezzük. 


Szimmetrikus mátrixok spektrálfelbontása. — Az A valós elemű szimmetrikus 
mátrix sajátértékei valósak, a különböző sajátértékekhez tartozó sajátvek- 
torok ortogonálisak. Van a térnek az A sajátvektoraiból álló ortonormált 
bázisa. Ennek alapján az A mátrix spektrálfelbontása: 


A— VAV! , (6.1) 


ahol a V ortogonális mátrix oszlopai az A ortonormált sajátvektorai, a A 
diagonális mátrix főátlójában pedig az A sajátértékei állnak. 


6.1.2. Differenciálszámítás 


A Taylor-formula. Legyen f az x és xo közötti nyílt intervallumban n-szer 
differenciálható, az z és ro közötti zárt intervallumban legyen fr folyto- 
nos. Ekkor 


(z — zo)? 
2! 


(2 — 20) 


Ti Te dsazék 


f(x) — f(x0) 7 f(x0) x 
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(a — zo) 
(n— 1)! 


ahol z az x és az ro pontok közötti nyílt intervallumban fekvő valamely pont. 


1-D (ao) a EE 0, 


Az e? függvényre a Taylor-formula. 














2 n—-1 n 
ún a stage (2 VT gr 
e€7—1- s FTGA METESZ ÉS prádllő) ahol ú e (0,1). 
Az e? Taylor-sora. 
2 n n 
EZ en da a EÉ x so a 
Eset ogy st apa Se 
Az ln: függvényre a Taylor-formula. 
2 3 n-1 n 
rt ax x x x 
In(1 -- r) — j ...-4(—1) GYEN Já ; 
ur) 1 2 3 1) n-1 1 n(1 7 2)" 


ahol 9 € (0, 1). 


Kétváltozós függvény szélsőértékei. — Ha az f(r,y) függvénynek az (To, yo) 
pontban szélsőértéke van (és léteznek a parciális deriváltjai) , akkor 


9f(T0, Vo) o Jf(To, yo) 


a 7 casa: (6.2) 


Legyen továbbá 


A — 





92 f (ro, yo) 22f(xo, yo) je 161) 2 
02? 0y? Ox0y 
(és legyenek f első és második parciális deriváltjai az (To, Vo) egy környeze- 
tében folytonosak). Teljesüljön (6.2). Ekkor 
a) A 5 0 esetén az f függvénynek az (To, yo) pontban szélsőértéke van, 
mégpedig 
2 
ö JG] €0, 
vé 
9 T7Gsul s 0: 


(i) szigorú maximuma, ha 

(ii) szigorú minimuma, ha 
b) A c 0 esetén az f függvénynek az (ro, yo) pontban nincs szélsőértéke; 
c) A — 0 esetén pedig előfordulhat, hogy az (To, yo) pontban van szélsőérték, 
de az is, hogy nincs szélsőérték. 

Az a) rész (i) esetére példa az f(x, y) — —x? — y? lefelé néző paraboloid, 
melynek az (29, vo) — (0,0) pontban maximuma van; az (ii) esetre példa 
az f(xm,y) — a? - y? felfelé néző paraboloid, melynek az (xo, yo) — (0,0) 
pontban minimuma van; míg a b) részre példa az f(x, y) — xr? — y? nyereg- 
felület, melynek az (To, vo) — (0,0) pontban nincsen sem maximuma, sem 
minimuma, lásd a 6.2 ábrát. 
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6.2. ábra. Paraboloidok és nyeregfelület 


6.2. Mátrixok általánosított inverze és kvadratikus 
formák minimuma 


Ebben a szakaszban egy speciális, de fontos optimalizációs problémát tár- 
gyalunk. A [33] könyvre támaszkodunk. 


6.1. Definíció. Az A p x n-es mátrix általánosított inverzének azt az AT 


n x p-s mátrixot nevezzük, melyre 








AAA — Al. (6.3) 








6.2. Megjegyzés. Ha A invertálható, akkor A7 egyértelműen létezik, és A7 — 
SAST 

Ugyanis ekkor A4A7!A — A nyilvánvalóan teljesül. Másrészt az A4A7 A — 
— A egyenletet jobbról és balról is megszorozva A7!-gyel, A7 — 4A71-et 
kapjuk. 

Természetesen az általánosított inverz nem minden mátrixra egyértelmű. 
Például a zérus mátrixnak bármely (alkalmas méretű) mátrix általánosított 
inverze. Később definiáljuk az ún. pszeudoinverzet, amely kielégíti az általá- 
nosított inverz definícióját (és még extra feltételeket). Annak fogjuk igazolni 


a létezését és egyértelműségét. 
6.3. Állítás. Ha A szimmetrikus n x n-es mátrix, akkor létezik általánosított 
inverze. 


. , Ax az A nem zérus sajátértékei, u1, . . . , Un De- 


Bizonyítás. Legyenek Az, . . 
. , Un-et 


dig az A sajátvektorainak ortonormált rendszere. Legyen U az ux4, . . 
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tartalmazó ortonormált mátrix, 


pi AT 


A" 


n x n-es diagonális mátrixok. Ismeretes (és könnyen igazolható), hogy 
A—UNUT. (6.4) 


Belátjuk, hogy 
AT GUN UT (6.5) 
teljesíti a feltételt: 














AA7TA — (UAUT)Y(UM UT) (UAUT) -— UAUT — A. 





6.4. Megjegyzés. Erre a speciális A7-ra A7AA7 — A7 és (A7)! — 47 is 
teljesül. 


6.5. Állítás. A(A! AJ7A! ortogonális projekció az A oszlopvektorai által 
generált F altérre. 


Bizonyítás. Azt kell belátni, hogy A(A! 47 A! az F altérre merőleges vek- 
torokat 0-ba, az 7-belieket pedig önmagukba viszi. 

Ha rLF, akkor A(A! AA! z — 0. 

Ahhoz, hogy A(A!A)J7A! az 7-beli vektorokat önmagukba. viszi, elég 
belátni, hogy [4A(A! AJ ATJA — A. Ez viszont igaz, mert tetszőleges v vek- 
tor v — v1 3 Av? alakba írható, ahol vi LI. Ezért 





v! A(ATAJTAT A — v[ A(ATAJT ATA 4 vJ (AT AJ(AT AJ (AT 4) — 
—0-v3(A" 4) — v! A. 














Az Ax — b lineáris egyenletrendszer megoldása helyett gyakran érdemes 


b—- Ax 7- e (6.6) 


lineáris modellben az x legkisebb négyzetes becslését keresni. Ez a 


min [JAx — bi (6.7) 
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minimum problémát jelenti. Ennek mindig van megoldása, és amennyiben 
a minimum értéke 0, úgy egyben a kiinduló Ax — b lineáris egyenletrend- 
szer megoldását kapjuk. (Megjegyezzük, hogy a numerikus programcsoma- 
gok gyakran eleve a fenti általános értelemben adják meg a lineáris egyen- 
letrendszerek megoldását.) 

A (6.7) feladat azzal ekvivalens, hogy keressük a A oszlopvektorai azon 
Ax lineáris kombinációját, mely b-hez legközelebb van. Ez éppen b merőleges 
vetülete a A oszlopai által generált J altérre. Az ortogonális komplementer 
ekkor b— Ax. Az, hogy ez merőleges F-re, ekvivalens A! (b— Ax) — 0-val. 
Innen az 


AVAz—A!b (6.8) 


normálegyenletet kapjuk. Ennek z megoldásai egybeesnek a (6.7) minimum 

feladat megoldásaival. Mivel a merőleges vetület létezik, így a normálegyen- 

letnek mindig van megoldása (de lehet, hogy több is van). Viszont a merőle- 

ges vetület egyértelmű, így az zt megoldásra az Az vektor már egyértelmű. 
Az általánosított inverzzel is kifejezhetjük a megoldást: 


x—-(ATAJTATb. (6.9) 


Valóban, ekkor Az — A(A!AJ7A! b, azaz a 6.5. Állítás miatt Az éppen b 
merőleges vetülete az A oszlopai által generált 7 altérre. 
A IIb — Axl? minimumhelyét 


x — ATb 


alakban is ki szokták fejezni, ahol At az A mátrix pszeudoinverze. Belátjuk, 
hogy ez ekvivalens az előzőekkel. 

At meghatározása az alábbi ismereteket igényli. Jelölje ő;j a Dirac- 
deltát: ó;j — 1, ha i — j, ózj — 0, hai A j. 


6.6. Definíció. Az A px n típusú mátrix sajátbázisának nevezzük az R" 
tér 41, . . . , un ortonormált bázisát, ha 


u; A! Au; zs 070ij , 12 i,j £ n. (6.10) 


A o; számokat az A szinguláris értékeinek nevezzük. Ezek sorrendjéről fel- 
tesszük hogy 012022... 30n2 0. 





Sajátbázis létezik, nem egyértelmű, de a szinguláris értékek egyértelmű- 


ek. 


6.7. Tétel. Tetszőleges A mátrixnak létezik sajátbázisa. 
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Bizonyítás. 1. Az első módszer: visszavezetjük a szimmetrikus mátrixok 
spektrálfelbontására. Valóban, az A! A szimmetrikus, pozitív szemidefinit 
mátrixnak létezik n darab nem negatív sajátértéke (ezek legyenek o? 2 03 2 
SZ 02 2 0), valamint létezik a fenti sajátértékekhez tartozóan, n darab 
ortonormált sajátvektora (ezek legyenek u, . . . , un). Így (6.10) teljesül. 

Másrészt, ha (6.10) teljesül, akkor az u; vektorok és a c? 
lehetnek mások, mint A! A sajátvektorai és sajátértékei. Azaz sajátbázis 
létezik, nem egyértelmű, de a szinguláris értékek egyértelműek. 

2. A második módszer: a szimmetrikus mátrixok spektrálfelbontására 
nem támaszkodva. Legyen ui az R" tér olyan egységvektora, mely megoldá- 
sa a max ajj—i II 4ull maximum problémának. Ilyen létezik, hiszen kompakt 
halmazon folytonos függvény felveszi a maximumát. Ha ez a maximum érték 
nulla, akkor A — 0, így tegyük fel, hogy Aui 0. 

Legyen most u az u1-re merőleges egységvektor. Ekkor az ui választása 
miatt az 


számok nem 


f(a) — IJA(ui cos a - u sin a) I? — 


— [IA II cos? a 4 2/Aui, Au) cos arsin a -k [/Aul[? sin? a 


függvénynek az a — 0 helyen maximuma van. Így deriváltja 0, azaz 0 — 
— f/(0) — 2(Aui, Au). Tehát az A mátrix az u1-re merőleges alteret az 
Au1-re merőleges altérbe képezi. Azaz az u1-re merőleges altérből (ami már 
eggyel kevesebb dimenziós) választhatjuk a következő vektorokat éppen úgy, 
ahogyan u1-et választottuk R"-ből. Indukcióval kész vagyunk. 














Az Au; vektorok egymásra merőlegesek. Azon indexekre, melyekre tel- 
jesül, hogy cz; A 0, a v; — Au;z/c; vektorok ortonormáltak. Egészítsük ki 
ezeket az R? tér ortonormált bázisává: v1, . . . , Vp. 


6.8. Definíció. Az u1, . . . , un, És a V1, . . . , vp bázisokat együtt az A saját- 
bázis párjának nevezzük. 


Ezekre teljesül, hogy 


vj Aus —ojóg, 19ign, 19£j$Dp. (6.11) 





6.9. Állítás. Szinguláris felbontási tétel. Egy p x n-es, valós A mátrixrhoz 
léteznek 
U — (u, u2,..., unt és V—(vi,v2,...,vph) 


ortogonális mátrixok és X — diag(c1, 02, . . . , 11) diagonális mátrix (ahol l — 
— min(p,n) éss1 2092 ...2 012 0) úgy, hogy 





A—VEUT. 


142 6. fejezet. Appendix 





V, S ésU rendrepxp, pXxn és nx n típusú mátrixok. 


Bizonyítás. Az A szinguláris felbontása ekvivalens V! AU — Y-val, ez pedig 
pontosan (6.11) mátrixos alakja. 














6.10. Definíció. Az A p x n-es mátrix pszeudoinverzének (Moore-Penrose- 
inverzének) azt az At n x p típusú mátrixot nevezzük, melyre teljesülnek az 


alábbiak 


AATA — A, (AAT)T — AAT, (6.12) 
ATAAT— AT, (ATA)! — ATA. (6.13) 





A pszeudoinverz nyilván teljesíti az általánosított inverz (6.3) definíció- 
ját. 


6.11. Tétel. Jetszőleges A valós elemű mátrixnak létezik pszeudoinverze, és 
az egyértelmű. 


Bizonyítás. Legyen A — VEUT a fenti szinguláris felbontás. Legyen Et 
n x p méretű diagonális mátrix: 


(G — 0 értelmezéssel) . Könnyen ellenőrizhető, hogy XT a X mátrix pszeudo- 
inverze. Legyen 


At—-unztvlT. 
Ez teljesíti a definícióban szereplő feltételeket. Például 
AAtTA —(VIUT(USEtV!(VSU!) —VEUT — A. 
Illetve 
(AA)! — (veuluztv!)! —-v(ztnj v! -VEDtVI — AAT. 


Az egyértelműség igazolásához tegyük fel, hogy a B n x p típusú mát- 
rixra is teljesülnek a (6.12)-(6.13) feltételek. A feltételek miatt BA és ATA 
szimmetrikus. Tekintsük a BA mátrixot: 


BA — B(AATA) —(BAY(At A). 
Transzponáltat véve: 


BA —(BA)" —(AtTA)J(BA) — AH(ABA) — ATA. 
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Hasonlóan 


AB —(AATA)JB — (AATY(AB). 
Transzponáltat véve, és kihasználva, hogy AB és AAT szimmetrikus: 
AB —(AB)" —(ABY(AAt) —(ABAJAT — AAT. 
Az ezekből adódó BA — ATA és AB — AA? összefüggéseket használva: 
AT —- ATAAT —(ATAJAT — (BAJAT — B(AAY) — B(AB) — B. 


Tehát egyrészt konstrukciót adtunk a pszeudoinverzre, másrészt beláttuk, 
hogy a definiáló tulajdonságait csak egyetlen mátrix elégíti ki. 














Most vessük össze a, IIb — AxIIJ? minimumhelyére szolgáló közismert z — 
— ATb képletet a szintén minimumhelyet szolgáltató z — (A! A)" A! b kép- 
lettel. Ez utóbbi a vetítéssel szemléletesen igazolható, ráadásul a szimmetri- 
kus A! A mátrix (A! A)" általánosított inverze könnyen származtatható. 


Most belátjuk, hogy (A! AJ" A! — AT. Valóban, A— VEU! alapján 








(AT AJTAT — uzívíveu!yuszív! — Uuz"zu!)uzív! — 
— (U(ZTgj-UTJUSTVT - U(zTnj-ETVT -UnztVT — At. 





Azaz (AT AJ7T A! — AT. Tehát beláttuk az alábbiakat. 


6.12. Állítás. A minz [/Azx — blI2 minimum probléma megoldásai egybeesnek 
az A! Az — A!b normálegyenlet megoldásaival. 

Mind az a — Atb képlet, mind az a — (A! A)7A!b képlet a minimum 
probléma ugyanazon megoldását adja (amennyiben szimmetrikus mátrix ál- 
talánosított inverzét a fenti módon adjuk meg). 


Most rátérünk általános típusú kvadratikus forma minimumának vizs- 
gálatára. E célból bevezetjük pozitív szemidefinit mátrixok négyzetgyökét. 
Legyen A — UAU! az előbbi, (6.4) képletben szereplő mátrix, legyen A pozi- 
tív szemidefinit. Ekkor a sajátértékei nem negatívak. Ezért az alábbi mátrix 


jól definiált: 
VM 


AI? éz VAk 
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6.13. Definíció. Az AV? — UAV?U!T mátrixot nevezzük az A mátrix négy- 
zetgyökének. 


Ekkor A? szimmetrikus, pozitív szemidefinit és teljesül az A— A1/2 A1/2 
egyenlőség. 

Csak megjegyezzük, hogy az At — UN? mátrix is teljesít négyzetgyök- 
szerű tulajdonságot. Nevezetesen A — A"(4A")!. De A" nem szimmetrikus. 

Most a fenti I/[/Ar—bI[2 — r" A! Ar—2ax" A! b--b! b speciális kvadratikus 


forma helyett elemezzük az 





f(9-aAr—2r!bi c 


általános kvadratikus forma minimumának létezését. 
A legegyszerűbb hozzáállás: a minimumhelyen az első deriváltnak nullá- 
nak kell lennie. Azaz az z minimumhely kielégíti az Az — b — 0 egyenletet. 
A pontosabb elemzés az alábbi. 


6.14. Állítás. Ha A szimmetrikus, pozitív szemidefinit, és b benne van az A 
képterében, akkor az f(r) minimumhelye az Ax — b tetszőleges megoldása, 
továbbá minden ilyen megoldásnál azonos az f függvény értéke. 

Ha b nincs benne A képterében, vagy ha A nem pozitív szemidefinit, akkor 
az f függvény alulról nem korlátos. 


Bizonyítás. Ha b nincs benne A képterében, akkor nincs minimum (ponto- 
sabban: az f függvény alulról nem korlátos). Legyen ugyanis b — bi -- ba, 
ahol bi benne van A képterében, ba pedig arra merőleges, ba - 0. Legyen 
x — ab2. Ekkor 


f(abo) — a?b3 Abo — 2abJ bc — 0 — 2abd ba 4 c — —2allbal[? 3 c — —oo, 


amint a Ó 00. 
Ha A nem pozitív szemidefinit, akkor az f függvény alulról nem korlátos. 
Legyen ugyanis v olyan vektor, melyre v! Av € 0. Ekkor 


f(aw) — af? (v! Av) — 2a(v! b) 4 c — —oo, 


midőn a — oo (ugyanis az a-ban másodfokú tag együtthatója negatív). 

Most belátjuk, hogy az f(r) minimumhelye az Ar — b megoldása, ha A 
szimmetrikus, pozitív szemidefinit és b benne van az A képterében. Legyen 
ekkor ugyanis b — Aa, amivel 


f(z) [ara — aT 412) (Aa tk Aa) — a! Aa c — 
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e IA 2 EÉS Aza —a!Aa 7 c. 


Ez akkor minimális, ha AV/2a — AV2a — 0, azaz r — a benne van AV? 
nullterében. De A!/? nulltere megegyezik A nullterével. Tehát Az — Aa — 
— b. De ennek az egyenletnek lehetnek különböző megoldásai. Szerencsére, 
az f függvény értéke ezeken a helyeken azonos: 


f(d)——a!Aa1c——a! A47TAatc——b! A-ba c. 


Tehát beláttuk, hogy ha A szimmetrikus, pozitív szemidefinit és b benne 
van az A képterében, akkor az f(r) minimumhelye az Ax — b tetszőleges 
megoldása, és minden ilyen megoldásnál azonos az f függvény értéke. 














6.3. Optimalizációs technikák 


Először csupán egy szóhasználati módot tisztázunk. Az elektromérnöki gya- 
korlatban tipikus feladat a jelfeldolgozás (signal processing). Ebben fontos 
eszköz a visszacsatolásos szűrő (adaptive filter). Mivel a visszacsatolásos szű- 
rő felfogható mint egy rekurziós eljárás, így ebben a műben ritkán használjuk 
ezt a kifejezést. 

Tegyük fel, hogy a hálózat a w súlyvektor esetén az zt bemenetre az 
y kimenetet produkálja. Azonban az igazi w" súlyvektor esetén az igazi 
kimenet d lenne (xr, y és d alkalmas méretű vektorok). Legyen €(w) az y 
és a d eltérésének egy mérőszáma. 

Például a leggyakrabban használt veszteségfüggvény az 


€(w) — IId- y(wP 30 


négyzetes hiba. Általában a w" igazi súlyvektorra £(w") — IId— y(w")IJ? — 


— 0. (Itt I[[.II a szokásos euklideszi norma.) 

Tehát amennyiben általános értelemben a w súlyvektor , jóságát" az 
€(w) függvény méri, akkor ésszerű feltenni, hogy az igazi w" súly esetén 
E€(w") x €(w) minden w esetén. Tehát az €£ (többváltozós) függvény globá- 
lis minimumhelyét kell meghatározni, ott lesz az igazi súlyvektor. 


6.3.1. A gradiens módszer 


A gradiens módszer (delta rule, method of steepest descent) lényege, hogy 
mindig a legnagyobb csökkenés irányába haladunk. Kétváltozós függvény 
esetén ez úgy képzelhető el, hogy a hegyről a legmeredekebb úton ereszke- 
dünk le a völgybe. A térképen megszokott szintvonalakkal ez jól ábrázolható. 
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A 6.3. ábra első részén egy kétváltozós függvény képe, a második részén pe- 
dig a szintvonalak és a negatív gradiensek láthatóak. A csökkenés iránya jól 


megfigyelhető. 
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6.3. ábra. Kétváltozós függvény képe, ill. szintvonalak 
és a negatív gradiensek 


A 6.4 ábrán egy felület szintvonalai és a gradiens módszer szerinti csökkenés 
irányai láthatóak. Megfigyelhető, hogy a lépések a , völgy aljára" vezetnek. 


6.4. ábra. A gradiens módszer szerinti lépések 


Hogyan kell tehát lépni a w(n) közelítésről a w(n--1) közelítésre? Legyen 
Aw(n) — w(n -- 1) — w(n) a w vektor (n -- 1)-edik és n-edik értékének a 
difflerenciája. Az € függvény gradiens vektora: 


g(w) — VE(w) — E 


9wo OWm 
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ahol w — (wo, wi, . . . , wWm) " . A Taylor-formula szerint lokálisan jó (elsőfokú) 
közelítés: 


€(w(n-k 1)) 5 €(w(n)) — g(w(n)) " Aw(n). 
A Cauchy-egyenlőtlenség miatt 
—IIg(w(n)) II IIAw(mII £ g9(w(n)) "Aw(n) £ Ilg(w(n))IIIIAw(m II, 


és itt az alsó határ akkor éretik el, ha Aw(n) — —ng(w(n)), ahol n 5 0. 
Tehát a gradiens módszer szerint a súlyvektor új értéke: 





w(n 41) — w(n) — ng(w(n)) ) (6.14) 











Itt ) 5 0 konstans, amit tanulási paraméternek nevezünk. Tehát 


Aw(n) — —ng(win)) 


a korrekciós szabály leírása. n) értékét pedig úgy határozzák meg, hogy olyan 
nagy legyen, ameddig az € függvény értéke csökken. Ez egy egyenes mentén 
történő keresés, ami számítógépen megoldható. 

Kicsit más magyarázattal is szokták indokolni a gradiens módszert. Vizs- 
gáljuk meg, hogy a módszer kielégíti a €(w(n--1)) c €(w(n)) feltételt (azaz 
lépésenként csökkenti a hibát). Induljunk ki megint a w(n) körüli Taylor- 
sorból. Aw(n) — —ng(w(n)), azaz a gradiens módszer szerinti lépés esetén 


€(w(n 1 1)) s €(w(n)) — ng(w(n)) " g(w(n)) — E(w(n)) — nila(win)) IP . 
50 


Tehát az € függvény értéke folyamatosan csökkenni fog. 
Viszont ) nagysága az alábbi módon befolyásolja a konvergenciát. 


— Ha n kicsi, akkor az algoritmus lefojtott (csillapított, overdamped), és 
a trajektóriája sima. 


— Han nagy, akkor az algoritmus nem eléggé csillapított (underdamped), 
és a trajektóriája cikcakkban halad. 


— Ha n meghalad egy kritikus értéket, akkor az algoritmus instabillá 
válik, tehát nem konvergál. 


A gradiens módszer tulajdonságainak elemzése megtalálható Fletcher 
[14] könyve 2. fejezetében. Az egyenes mentén történő keresésnél a pontos 
minimum helyett közelítő minimumhelyet ajánl. Habár a gradiens módszerre 
érvényes a stacionárius ponthoz való konvergencia (1. [14], Theorem 2.5.1), 
mégsem javasolja az általános használatát: a gyakorlatban megbízhatatlan. 
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6.3.2. A Newton-módszer 


A Newton-módszer legismertebb esete az f(r) — 0 (nem-lineáris, egyisme- 
retlenes) egyenlet numerikus megoldása. A megoldás során a gyök Tk köze- 
lítésétől úgy jutunk el az xx41 közelítéshez, hogy a függvény görbéjéhez az 
Tk pontban érintőt húzunk, ahol ez metszi az xr-tengelyt, ott lesz Tx41. Ez 
a 6.5. ábrán látható. 








X 
Xg 2 x 


6.5. ábra. A Newton-módszer szerinti lépések 


Mivel az érintő egyenlete 


y— f(x) — f(m)(z — ax), 
így y — 0 helyettesítéssel kapjuk, hogy 
f(x) 


ESZ is T(2k) 





Az általánosított Newton-módszer az f(r) — 0 többváltozós egyenletrend- 
szer megoldására, szolgál, ahol g — (x1,..., tm)! és f — (fi, ..., fm)! . Az 
egyváltozós esethez hasonlóan a gyököt közelítő sorozat képzési szabálya: 


Itt (9 a k-adik közelítés, J pedig az f függvény Jacobi-mátrixa, azaz J(x) 
j-edik sorának k-adik eleme: e 

Az aktuális feladatunk azonban € globális minimumhelyének meghatá- 
rozása. A minimum szükséges feltétele: a parciális deriváltak eltűnése. Tehát 
kapunk egy egyenletrendszert, aminek a megoldását kereshetjük az egyen- 


letrendszer megoldására szolgáló fenti általánosított Newton-módszerrel. 
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Ugyanezen végeredményhez, azaz a (6.17) képlethez fogunk eljutni az 
alábbi levezetéssel is. 

A Newton-algoritmust megkaphatjuk a hibafüggvény másodfokú közelí- 
téséből. A másodrendű Taylor-polinom az aktuális w(n) körül: 


AE(aw(n)) — €(w(n-k 1)) — €(aww(n)) z 
s g(w(n)) " Aw(n) -- 5Aw(n)T H(w(n)JAw(n), (6.15) 


ahol H(w) a Hesse-mátrix 


mr — árt) — vtétua) — ( lb) 





€(w) kétszer folytonosan differenciálhatóságát feltételezzük. w(n -- 1)-et 
Aw(n) szerinti minimalizálással kapjuk. A fenti (6.15) kifejezést deriválva 
adódik a minimum szükséges feltétele: 


g(w(n)) —- H(w(n)) Aw(n) — 0. (6.16) 


Ezen egyenlet megoldása: 


Tehát a Newton-módszerrel képezett, a minimumot közelítő sorozat 











w(n 41) — w(n) — [(w(m)] a(w(n)) ; (6.17) 





ahol H7! a H inverze. Mátrix invertálás helyett az alábbi ajánlott. Legyen 
ó(n) a 

H(w(n))ő — —g(w(n)) 
megoldása. Legyen w(n--1) — w(n) -- ő(n). A Newton-módszert érdemes a 
fenti ő(n) irányban egyenes mentén történő kereséssel alkalmazni. 


A (6.15) és (6.16) formulákból látható, hogy a Newton-módszer szerinti 
lépés esetén 


Alagi ás -5Aw(n)T H(w(n)JAw(n). 


Tehát ahhoz, hogy a célfüggvény értéke mindig csökkenjen, H(w(n)) pozitív 
definit volta szükséges. 
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Általában igaz, hogy a Newton-módszer gyorsan konvergál, és nem halad 
, cikcakkban", mint a gradiens módszer. Bizonyos feltételek esetén a Newton- 
módszer másodrendben konvergál (egy lokális minimumhoz), 1. [14], The- 
orem 3.1.1. A módszer alkalmazhatóságának feltétele, hogy H(w(n))-nek 
pozitív definitnek kell lennie bármely n-re. Ha nem pozitív definit, akkor 
módosítani kell az eljáráson. Egy lehetséges módosítás, hogy az aktuális 
Hesse-mátrixhoz hozzáadjuk az egységmátrix egy (kis) pozitív számszoro- 
sát. Azonban az egyik legfontosabb hátrány, hogy ki kell számolni a második 
deriváltakat (azaz a Hesse-mátrixot), ami általában nehézségekbe ütközik. 

Most adunk az eljárás igazolására egy olyan érvelést, amelyből kiderül, 
hogy pozitív definit H(w(n)) esetén működik a módszer. A (6.15) képletből 
(nyilvánvaló rövidített jelöléssel) kapjuk: 


E€(wn-r1) sctg!ő-r 507 Hő - 








1 f 
-: [ő kejt ajá Vr] [VIő 4 VHAg]- 39" H7g- e 


Itt, ha H pozitív definit, akkor neki és inverzének is létezik négyzetgyöke, 
amelyet VH, illetve VH7! jelöl. Az előző kifejezés első tagja lényegében egy 
vektor hosszának a négyzete, amely akkor minimális, ha a vektor nulla, azaz 
ha ő — —H"-!g. Tehát most is megkaptuk a Newton-módszer előző (6.17) 
képletét. 


6.3.3. Kvázi Newton-módszerek 


A Newton-módszer hátrányait bizonyos módosításokkal küszöbölhetjük ki. 
Ebben a részben Fletcher [14] könyve alapján tekintjük át a kvázi Newton- 
módszereket. Induljunk ki a hagyományos Newton-módszerből. Tehát az € 
többváltozós célfüggvény minimumát keressük. A rövidség kedvéért jelölje 
9xk a gradiens k-adik értékét, Hx a Hesse-mátrix k-adik értékét, wr a mi- 
nimumhely k-adik közelítését. Ekkor a Newton-módszer az alábbi. Oldjuk 
meg a 
Hkó — —gk 


egyenletet, a megoldást jelölje őr, a következő közelítés pedig legyen 
Wk41 — Wk TF Ők. 


Mivel ezzel a módszerrel nem garantált a célfüggvény csökkenése, így egy 
egyenes mentén történő keresést alkalmazunk. Legyen 


HrS — —gk 
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megoldása Sz, és az aktuális wx pontból s irányában keressük meg az € 
célfüggvény minimumhelyét. Ez a pont lesz a minimumhely következő köze- 
lítése: wki. 

A Newton-módszer fő nehézsége, hogy minden lépésben ki kell számolni 
a Hesse-mátrixot (azaz a második deriváltakat), és az nem is lesz mindig 
pozitív definit. Ezeket kiküszöbölhetjük, ha a Hy ! helyett annak egy szim- 
metrikus pozitív definit Gx közelítését használjuk. Legyen G1 tetszőleges po- 
zitív definit mátrix, leggyakrabban az egységmátrixot választják. A k-adik 
iterációs lépés az alábbi: 


— legyen $x — —Grgk; 


— alkalmazzunk sx irányában egyenes mentén történő keresést az € cél- 
függvény minimumhelyének megtalálására, a minimumhely lesz az új 
közelítés: wWk41 — Wk tk OkSk; 


— aktualizáljuk a Gx mátrixot: Gk.41. 


Ez a kvázi Newton-módszer általános alakja. 

A kvázi Newton-módszer az alábbi előnyökkel rendelkezik: csak elsőrendű 
deriváltak kellenek, a Gx mátrix pozitív definit, iterációs lépésenként O(m?) 
szorzás kell (m-változós esetben). Ezzel szemben a Newton-módszerhez má- 
sodrendű deriváltak kellenek, a H4 mátrix lehet indefinit, iterációs lépésen- 
ként O(m?) szorzás kell. 

A kvázi Newton-módszer nehézsége a Gx4x mátrix aktualizálása. Jelölje 
Ök — Wk41 — Wk a változó differenciáját, yr — 9r41 — 9x pedig a gradiens 
diflerenciáját. Ekkor a Taylor-formulából 


Y — Hrör 4 o(llőxiD: 
Mivel Gk a Hy ! közelítése, így a fenti egyenlőségből realisztikus feltétel 


Ezt nevezzük kvázi Newton-feltételnek. Több, ezt teljesítő módszer ismeretes. 
Most néhány ezt teljesítő, de egyszerű formulát ismertetünk. 
Legyen 


Gk--1 — Gk Tt auu! . 


Azaz egy egyrangú mátrixszal (diáddal) korrigáltunk. Mivel a (6.18) felté- 
telnek teljesülnie kell, így 


GgYk TF auu 9 — Ők. 
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Innen látszik, hogy az u vektor szükségképpen a őr — GkYxk vektor skalárszo- 
rosa. Tehát ha u — ő; — GY választással élünk, akkor au! y, — 1, amiből 
már a kifejezhető. Ezzel meg is kaptuk az elsőrendű formulát: 


ör — Gr) (Ők — GxYx) " 

(ők — GkYr) "Vr i 
Ez a formula Broyden, Davidon, Fiacco, McCormick, Murtagh, Sargent és 
Wolfe nevéhez köthető. Ez a formula jól viselkedik kvadratikus célfüggvény 
esetén, de pl. nem minden esetben tartja meg a Gr mátrix pozitív definit 
voltát (1. [14]). 

Ettől rugalmasabb a másodrendű formula, amelynek alakja 


Gk-r1 — Gk 7 ( 





Gky1 — Gr Tt auu! 7 bvv! . 


Azaz kettő darab egyrangú mátrixszal (diáddal) korrigáltunk. Mivel a (6.18) 
feltételnek teljesülnie kell, így 
GrYx tauul 9 tbvv! 7 — Ők. 


Itt már u és v nincs egyértelműen meghatározva. Azonban u — Őz és v — 
— Gr Yx nyilvánvaló választás, amely esetén au! y, — 1 és bv! 94 — —1 már 
meghatározza a-t és b-t. Az adódó másodrendű formula: 
ÖKÖR GEYKTRGk 
ÖR Tk TÉGETk 





Gk-r1 — Gx Tt (6.19) 
Ez a Davidon-Fletcher-Powell-formula, [14]. Ez a formula számos jó tu- 
lajdonsággal rendelkezik: megőrzi Gk pozitív definit voltát, szuperlineárisan 
konvergál. További jó tulajdonságai vannak kvadratikus és szigorúan konvex 
célfüggvények esetén (Il. [14]). 

Ezen formulát átírhatjuk az alábbi alakba. Jelölje Bx a Gx mátrix inver- 
zét, azaz a Hesse-mátrix közelítését. Ekkor 


Őr BRŐK NYERTE TRŐZ Br TF BRÖRYR 
YŐk ) Y4Ők YEŐk 





Ezt a Woodbury-egyenlőség felhasználásával kaphatjuk meg. 

Azonban napjainkban a Davidon-Fletcher-Powell-formula már nem pre- 
ferált, vannak hatékonyabb formulák is. Alkalmazott viszont a Broyden- 
Fletcher—Goldfarb-Shanno-formula, amelynek alakja: 


EG ÖKÖL — ÖRYEGk TF GYŐR 
ÖL Yk ÖR VK ÖR VK 





Gk41 — Gk 7 ( (6.21) 
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Ezen formula motivációja az alábbi. Jelölje ismét Br a Gx mátrix inverzét, 
azaz a Hesse-mátrix közelítését. Ekkor a Woodbury-egyenlőség felhasználá- 
sával az alábbi adódik. 





ART BEŐKŐK Bk 


Br41 — Br T 
b YEŐk öt BkŐk 


(6.22) 
Láthatjuk, hogy (6.22) a (6.19) egyenlőség duálisa, azaz abból a BE G 
és y 6 ő cserével adódik. Ugyancsak duálisa (6.20) a (6.21) egyenlőségnek. 
További formulák kaphatóak az alábbi, a $ valós paramétertől függő 
családban: 


GF — (1— 6) GREP - 6GET OS , 


ahol GpFP a Davidon-Fletcher-Powell-formulából, GES pedig a Broyden— 
Fletcher-Goldfarb-Shanno-formulából adódik. Ez az ún. Broyden-család. 

Végül tekintsük át a leggyakrabban használt Broyden-Fletcher—Gold- 
farb-Shanno-formula algoritmusát. Tehát az €£ többváltozós célfüggvény mi- 
nimumát keressük. Jelölje gy a gradiens k-adik közelítését, Br a Hesse- 
mátrix k-adik közelítését, wx a minimumhely k-adik közelítését. Legyen wo 
a kezdeti közelítés, Bg a közelítő Hesse-mátrix kezdeti értéke (általában az 
egységmátrix). Határozzuk meg az € célfüggvény gg gradiensét a wo pont- 
ban. 

Az iterációs lépések: 


— Oldjuk meg a B4s — —g, egyenletet, a megoldást jelölje Sr. 


— Egyenes mentén történő keresését alkalmazunk. Az aktuális wx pont- 
ból sz irányában keressük meg az € célfüggvény minimumhelyét. Ez a 
pont lesz a minimumhely következő közelítése: wk.41. 


— Számítsuk ki az € célfüggvény gr41 gradiensét a wr4i1 pontban. 


— Legyen őr — Wr41— Wk a változó differenciája, yr — 9r41 — 9x Pedig 
a gradiens differenciája. 


— Legyen 
TRY BRŐKÖK Bk 
TŐR ŐR Bkők 


a közelítő Hesse-mátrix aktualizálása. 


Br41— Br 7 





Az MLP esetén a gradienst az error-backpropagation eljárással számítjuk 
ki. A BFGS-formula a gyakorlatban jól működik. Számos jó tulajdonságát 
igazolták, konvergenciáját bizonyították (1. [14]). 
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6.3.4. Levenberg-Marguardt-módszerek 


A Levenberg-Marguardt-módszereket szokták a korlátozott lépésű módsze- 
rek, illetve a megbízhatósági tartomány módszerek között tárgyalni. Azaz 
úgy tekintjük, hogy egy bizonyos tartományon a másodfokú Taylor-közelítés 
elég jó, és ezen a tartományon belül keressük a közelítő polinom minimu- 
mát. Ebben a részben Fletcher [14], valamint Nocedal és Wright [34] könyve 
alapján tekintjük át a Levenberg-Marguardt-módszereket. Kezdjük a korlá- 
tozott lépésű módszerekkel (restricted step method). Tehát az €£ többváltozós 
célfüggvény minimumát keressük. A rövidség kedvéért jelölje gy a gradiens 
k-adik értékét, Hx a Hesse-mátrix k-adik értékét, wz a minimumhely k-adik 
közelítését. Tekintsük az 


L 
E€(wk Hő) — €(wr) tagi ő 50" Hő — gx(ő) (6.23) 


Taylor-közelítést a wx pont körül. Tételezzük fel, hogy a fenti közelítés kielé- 
gítő a wx pont egy bizonyos környezetében (ez a tartomány a megbízhatósági 
tartomány, azaz trust-region). Ebben keressük a gy másodfokú közelítés mi- 
nimumát. Két szempont között kell egyensúlyoznunk: a környezet legyen 
minél tágabb, de a választott környezetben (6.23) legyen elég jó közelítés. 

A prototípus algoritmus a következő (LM0). Tegyük fel, hogy már k — 1 
lépést megtettünk. 


(i) Adott wk és hk 5 0, számítsuk ki az €£ célfüggvény wk-beli gradiensét 
és Hesse-mátrixát: gr, Hk; 


(ii) oldjuk meg a 
gr(ő) 


minimum problémát, a megoldás legyen ők; 


min 
IlőIISRk 


(iii) számítsuk ki az €(wk1-ők) függvényértéket és a (6.23) közelítés jóságát 
mérő 


E(Wwr) — E(Wwkr tk Ők) 
gk(0) — axk(ők) 





TERE 
hányadost; 


(ív) ha rx — 0.25, akkor legyen hx4yi — IIőrI[/4, 
ha Tr 5 0.75 és IlőxII— Rk, akkor legyen hr4i1 — 2hk, 
egyébként legyen hr41 — Ax; 


(v) ha rk £ 0, akkor legyen wr41 — Wwkr, egyébként legyen wWr41 — Wrk-FŐk. 
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Az algoritmus nem túlságosan érzékeny a benne szereplő konstansok meg- 
változtatására. Az algoritmus általános feltételek mellett konvergál (1. [14]). 

A fentiekben a [/Iőr]II norma tetszőleges volt. Amennyiben a szokásos euk- 
lideszi normát használjuk, akkor további jó tulajdonságok is adódnak. Ezek 
az alábbi tételen alapulnak (Il. [14], Theorem 5.2.1). 


6.15. Tétel. ők a 
1 
min (Eu) tHtgiő-t 507) (6.24) 
5"ő£h2 2 
minimum problémának akkor és csak akkor globális megoldása, ha létezik 
olyan v 2 0 szám, melyre 
(Hk at vI)ők — —gk; 
v(őrők— h?) —0, 
H4k 14 vI pedig pozitív szemidefinit (itt I egységmátrixr). Ha még Hx 4 vI 


pozitív definit volta is fennáll, akkor óx egyetlen megoldása a (6.24) minimum 
problémának. 


Ez alapján a tétel alapján a korábbi algoritmus a következőképp módosul. 
(Ezt az algoritmust jelölje (LM1).) 


(i) Adott wk és uk 5 0, számítsuk ki az € célfüggvény wk-beli gradiensét 
és Hesse-mátrixát: gr, Hk; 


(ii) állapítsuk meg, hogy Hk -- uxI pozitív definit-e: ha nem, akkor legyen 
Ur — 4vx, és ismételjük ezt addig, amíg pozitív definit lesz a mátrixunk; 


(iii) oldjuk meg a 
(Hp FukDő — —gk (6.25) 


egyenletet, a megoldás legyen Ők; 


Fa 
me 
ses 

hő 


számítsuk ki az €E(wr1-ők) függvényértéket és a (6.23) közelítés jóságát 
mérő 


E(wr) — E(wk Th Ök) 
ak(0) — ak(ők) 





Tk — 
hányadost; 


(v) ha rx Ca 0.25, akkor legyen Ury1 — 4Lk, 
ha rx 5 0.75, akkor legyen vr41 — Uk/2, 
egyébként legyen Ur 1 — Uk; 
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(vi) ha rx £ 0, akkor legyen wr41 — wk, egyébként legyen Wr41 — WkT-Ők. 


A vi kezdeti érték lehet tetszőleges pozitív szám. 

Abban az esetben, amikor a négyzetes hibafüggvényt kell minimalizálni, 
a Levenberg-Marguardt-módszernek az alábbi speciális változatát szokták 
alkalmazni. (Ez tekinthető az eredeti Levenberg-Marguardt-módszernek.) 
Legyen most tehát 


1 5 1 
€(w) — 5 llelw)I[7 — pt JE zak (d; — vi(w 
1-1 


a szokásos négyzetes hibafüggvény. Itt e(w) — (e1(w),..., ep(w))" a p- 








dimenziós hiba vektor, w — (wa, . . . , vm) " pedig m-dimenziós változó. J(w) 
jelölje a p x m-es Jacobi-mátrixot: 
0e1(w) DJe1(w) 
Öwi1 gi a OWwm 
J(w) — : : : 
dJep(w) dep(w) 
Öw1 lés Owm 








Ezekkel az € gradiense: 


H(w) — (J(w) wa Vele w) V2ej(w), 


VESÁRNES db 1 


ÖOWKÖOVWI 


ahol 


az ej többváltozós függvény második deriváltjaiból álló Hesse-mátrix. Azon- 
ban a második deriváltak kiszámítása általában nehézségekbe ütközik. Vi- 
szont ezt megspórolhatjuk úgy, hogy a fenti képletben a második tagot el- 
hagyjuk. Ez valójában nem okoz túlságosan nagy problémát, hisz a mini- 
mumhely közelében az ej(w) hibák kicsik. Tehát a fenti (LM1) algoritmust 
úgy kell módosítani, hogy a (6.25) egyenletben H, helyett J/ Jk-t, gx helyett 
pedig JI ek-t írunk. Itt Jk — J(wk), ek — elwk) a Jacobi-mátrix, illetve a 
hiba vektor értéke a k-adik közelítés esetén. Természetesen ekkor a közelítő 
Taylor-polinomot is az alábbiak szerint módosítani kell: 


gr(ő) — €(wr) — eg Jkő 4 507 Jő. 


Tehát az így kapott algoritmus a NEM 
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(i) Adott wk és ur 5 0, számítsuk ki az e hiba vektor wx-beli Jacobi- 
mátrixát: Jk; 


(ii) oldjuk meg a 
(Ik Ik FV] ő — —J, ek (6.26) 
k k 


egyenletet, a megoldás legyen Ők; 
(iii) számítsuk ki az E(wk 1- ők) függvényértéket és a közelítés jóságát mérő 


E(Wwr) — E(wk tk Ők) 
gr(0) — ax(ők) 





Tk — 


hányadost; 


(v) ha rx 0.25, akkor legyen Ur4y1 — 4uk, 
ha rk 5 0.75, akkor legyen vr41 — Uk/2, 
egyébként legyen Ur 1 — Uk; 





(vi) ha rk £ 0, akkor legyen wr41 — wk, egyébként legyen wki — WrkT-Ök. 


A fenti algoritmusnak számos változata van, azoknak pedig számos imple- 
mentációja. Ezekről, valamint a Levenberg-Marguardt-algoritmus jó tulaj- 
donságairól lásd a Fletcher [14], továbbá Nocedal és Wright [34] műveket. A 
Levenberg-Marguardt-algoritmus a gyakorlatban bevált módszer. 


6.3.5. A lineáris modell 


A statisztikában széles körben használatos lineáris modellre vonatkozó né- 
hány tény hasznos lesz az alábbiakban. A lineáris modell definíciója a sta- 
tisztikában használatos jelölésekkel 





Y-XBiel, (6.27) 











ahol Y az n-dimenziós megfigyelés vektor, X a magyarázó változók n x 
x p méretű, nem véletlen, megfigyelt mátrixa, 8 a p-dimenziós ismeretlen 
paraméter, €c pedig nem megfigyelhető n-dimenziós véletlen vektor (hiba). 
Általában n 5 p, ezt szükség esetén fel fogjuk tenni. A gyakorlatban p a 
magyarázó változók száma, n pedig a megfigyelt objektumok száma, tehát 
n5P p ésszerű feltétel. 
A B paraméter vektort a legkisebb négyzetek módszerével becsüljük. Ha 














a várható érték Ee — 0 és a szórásmátrix var(e) — o?I (c? ismeretlen 
paraméter) , akkor homoszkedasztikus esetről beszélünk. Ekkor a közönséges 
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legkisebb négyzetes becslést (OLS—-Ordinary Least Sguares) alkalmazzuk 
B-ra: ez lesz B. 

Legyen tehát ő az IIY — X.8II2-et minimalizáló vektor. (Itt I . II a norma 
R"-ben.) Jelölje Pp az X oszlopai által generált F altérre való merőleges 
vetítést. 


6.16. Tétel. B akkor és csak akkor legkisebb négyzetes becslés, ha 
XB-PFY. 


B akkor és csak akkor legkisebb négyzetes becslés, ha B az 








XIXB—-XIY 








normálegyenlet megoldása. 


Bizonyítás. Tekintsük a 6.6. ábrát. Y-hoz az X oszlopai által generált altér 


Y 
Y- XB 


sz] 


6.6. ábra. Vektor és altér távolsága 


mely X8 eleme lesz legközelebb? Éppen az Y vetülete, azaz PFY. Így X B zt. 
e PFY. 

IY — XBIJP mikor a legkisebb? Ha Y — XB éppen az Y ortogonális 
komplementere az F altérre vonatkozóan. Azaz Y — XB merőleges X minden 
oszlopára, tehát 

XIY-XxXIXB8B-0, 


vagyis 





XIXB-XIY. 











6.3.6. A Gauss-Newton-módszer 


A Gauss-Newton-módszer általános leírása megtalálható Nocedal és Wright 
[34] 10. fejezetében. Itt csak egy rövid bevezetést adunk. Ez a módszer abban 


6.3. Optimalizációs technikák 159 





az esetben alkalmazható, amikor a négyzetes hibafüggvényt kell minimali- 
zálni, azaz 


D 
le(w)i? — 7 ettun SZ gaz újja) 
2-1 7 szól 


Itt e(w) — (e1(w), . . . ,ep(w))" a hiba vektor, w pedig m-dimenziós vek- 
tor. Az f(a) s f(x b -r f(x)(xz — xo) alakú Taylor-formulát alapul véve 
felírhatjuk az 





elw) z elw(n)) az (ED) (an — to) 


e kr 
J(n) 


lineáris közelítést. Itt J(n) a p x m-es Jacobi-mátrix: 











Öe1(w) De1(w) 
Öw1 jezlék OWwm 
J(n) — : ; ; 
dep(w) dep(w) 
Öw1 st OWwm 


A fenti egyenlet átrendezésével 


e(w(n)) — —J(n) (w — w(n)) tr elw) . 
s s 
Y X B É 


Ez természetesen éppen az Y — XB7-e lineáris modell, amelynél 8 becslése 
a Ilell2 — Ile(w)II? minimalizálásával a, 


B-(XTX)yI1xTY 


képlet alapján adódik. Innen pedig már könnyen felírható az igazi w súly 
approximáló sorozata: 








w(n 4 1) — w(n) — (Jr T J(n)) 1 J(n)Te(w(n))!. (6.28) 








A gyakorlatban egyenes mentén történő keresést kell végrehajtani s(n) 
irányban, ahol s(n) a J(n)" J(n)s — —J(n) "e(w(n)) megoldása. 
További részleteket lásd Fletcher [14] 6. fejezet. 
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6.3.7. Lineáris legkisebb négyzetes módszer 


Ez a legegyszerűbb szituáció, azaz amikor a kimenet lineáris és a hiba négy- 
zetes. A hibavektor: 
e(n) — d(n) — X(n)w(n), 


ahol d(n) az alábbi n x 1 -es vektor 


Azaz X(n) az első n inputból, d(n) pedig a megfelelő outputokból áll. A 
fentiek alapján: 


d(n) — X(n)w(n) - e(n). 


Ez éppen a lineáris modell Y — XB 7- e alakú alapegyenlete. Ekkor azon- 
ban tudjuk, hogy a legkisebb négyzetes becslés 8 — (X!.X)-IXTY. Ezek 
alapján 





w(n 1) — (XImTX(m)  X(mTd(m) (6.29) 











Tehát ekkor egyetlen lépésben megkapjuk a minimumot (rögzített számú 
tanító pont esetén). 

Most megmutatjuk, hogy amikor a tanító pontok száma a végtelenhez 
tart, bizonyos esetekben a lineáris legkisebb négyzetes szűrő határértéke a 
Wiener-szűrő. Tegyük fel, hogy az (X(n), d(n)) n x (m -- 19-es mátrix sor- 
vektorai egymástól független azonos eloszlású valószínűségi vektor változók 
(vagy általánosabban egy stacionárius és ergodikus sorozatot alkotnak). 

Viszont X(n)! X(n) az alábbi diádösszegre bontható 














5XmTX(n) is Fo z(ör(" G Ex(Dz(1)" — Rez. (6.30) 
1-1 


Ez a konvergencia a nagy számok törvénye (illetve az ergodikus tétel) mi- 
att teljesül. Itt Rez az r(1) valószínűségi vektor változó variancia mátrixa 
(amennyiben nulla a, várható érték). Továbbá 














SSú Gas 9 z(dd(i) — Ex(Dd()—raa (6.31) 


n n 
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szintén a nagy számok törvénye (illetve az ergodikus tétel) miatt. Itt reg az 
x(1) valószínűségi vektor változó és d(1) kovariancia mátrixa (amennyiben 
nulla a várható érték). 

Tehát 


lim w(n) — RZÁT aa. 
n-oo 


Ezen utóbbi határérték pedig éppen a Wiener-szűrő. 


6.3.8. A Least-Mean-Sguare (LMS) módszer 


Az előző módszer (a lineáris legkisebb négyzetek módszere) esetén az n -- 
-- 1-edik közelítéshez az első n megfigyelés (adat, tanító pont) által adott 
információt használtuk. Most viszont nem az n-edik megfigyelésig terjedő 
összes (azaz n db) eltérés alapján, hanem csupán az n-edik (azaz 1 db) 
eltérés alapján aktualizáljuk az előző becslést. Tegyük fel, hogy a kimenet 
lineáris. Ekkor az n-edik eltérés: 





E(w(n)) — seln)? 
Innen 
Jolj 772), 
amiből Ata) 
od 7 elnem). 


Tehát a gradiens vektor becslése: 


9(n) — —e(n)a(n). 


Felhasználva a gradiens módszer (6.14) képletét azt kapjuk, hogy 





W(n-- 1) — 4(n) 4 neln)x(n) l. (6.32) 











Ez tehát az LMS (Least-Mean-Sguare) algoritmus, más néven a Widrow— 
Hoff-algoritmus. Ennek részletes elemzését lásd Haykin [18] 3. fejezet. 
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6.3.9. A konjugált gradiens módszer 


A gradiens módszer viszonylag egyszerűen megvalósítható, de lassú és meg- 
bízhatatlan lehet. A gyakorlatban a gradiens módszert ritkán használják az 
eredeti formában. Ennek módosítása, a konjugált gradiens módszer gyakran 
alkalmazott, ezért részletesen elemezzük. 

Induljunk ki az átlagos hiba w(n) körüli Taylor-sorából: 


E(w(n) — Aw(n)) — 
— £(w(n)) 4 gluw(m)TAw(n) 5 Aw(n)T H(w(n))w(n) 4... 


ahol g(w) a gradiens vektor, H(w) pedig a Hesse-mátrix. A gradiens mód- 
szernél a súlyvektor megváltozása: 


w(n 41) — w(n) — Aw(n) — —ng(w(n)). 


Most először általános értelemben kifejtjük a konjugált gradiens módszert, 
majd alkalmazzuk a többrétegű perceptronra. Ismeretes, hogy hogyan tudjuk 
minimalizálni az alábbi kvadratikus formát. Legyen 


f(z) — 527 Az —b!z- c, 


ahol xz k-dimenziós vektor, A pedig k x k-s pozitív definit szimmetrikus 
mátrix. A 0 — f/(r) — Ax—b feltétel alapján a minimum xz — 4A7!b-nél lesz. 
Most tehát az Az — b lineáris egyenletrendszert kell megoldanunk. Legyenek 
az ro, 1, . .. vektorok az z megoldás közelítései. A közelítés hibája: 


ez; — Lt; — 1. 
A közelítésből adódó reziduál definíciója: Tr; — b — Ax;. Erre 


ri —b— Ax, — Ar— Ar. ——4Aej——f(x) , (6.33) 
e 
negatív gradiens 
ahol az f(r) — Az—b képletet használtuk. Adott x; és r; esetén határozzuk 
meg x;41-et 
Ti1 — TT; Tt AT; (6.34) 


szerint. Az az skalár értéket pedig határozzuk meg úgy, hogy addig lépjünk 
T; irányába, amíg az f függvény értéke csökken. Így a minimum feltétele az 
az szerinti deriváltra 


df(xi 4 ari) 


0 — 
doc; 


— f(m- og) "Ti — 
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zi (Aa; -- a ÁT; — b)" r; 7 —ri Tri -k OGT) AT: 


ahol a (6.33) egyenlőséget alkalmaztuk. Ebből 


TIT; 
Aj — 


— — k 
T; AT; 





(6.35) 


A reziduál definíciója és (6.34) miatt az i - 1-edik reziduál: 
Ti-1 — b — AÁTz41 — T; Tt Ax; — Ax; — o, AT; — T; — Oo; AT; . 


Vizsgáljuk meg, hogy milyen viszonyban vannak egymással a reziduálok. 
A (6.35) összefüggés és az előző egyenlőség miatt 


AT T T 
T; Ti41 — TT; Ti; — air; Ar; — 0, 


azaz 
riLrii- 


Tehát a következő lépés az előzőre merőlegesen történik. Az eddigieket össze- 
foglalva 





T 
T; Ti 


T) AT; ; 





Ti — rj-Fajri;, rTi—b— Ax;, a; 











A konjugált gradiens módszerhez szükség van konjugált irányok fogalmára. 
Definiáljunk egy szimmetrikus bilineáris formát a következő módon 


(r,yy— az! Ay, (6.36) 
ahol A szimmetrikus, pozitív definit mátrix. Tehát (., .) egy belső szorzat. 
Azt mondjuk, hogy az x és az y vektorok (r / y) az A szimmetrikus, 
pozitív definit mátrixra nézve konjugáltak, ha 
(ay) —aT Ay —0. 
Más szóval az z és az y vektorok A-ortogonálisak, amit így jelölünk: 


xrl4ay. 


6.17. Állítás. Tetszőleges A szimmetrikus, pozitív definit mátrix nullától 
különböző konjugált vektorai lineárisan függetlenek. 
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Bizonyítás. Legyenek go, x1,..., ti nem nulla vektorok az A mátrix kon- 
jugált vektorai. Indirekt tegyük fel, hogy nem lineárisan függetlenek, azaz 
valamelyiküket, pl. xo-t ki tudjuk fejezni a többi vektor lineáris kombináci- 
ójaként: 


l 
To — y ajtj. 
j—1 


Alkalmazzuk a belső szorzást Axo-lal, így kapjuk: 


k 
xrd Axo z y ajr] Ax -—0 
j7—1 


az A-ortogonalitás miatt. Ez azonban lehetetlen, mivel A pozitív definit, xo 
pedig nem nulla vektor. Így a konjugált vektorok lineárisan függetlenek. 














A Gram-Schmidt-féle ortogonalizáció alapján mindig ki tudunk alakítani 
ortonormált bázist egy lineárisan független vektor rendszerből. Tehát létezik 
az A konjugált vektoraiból álló do, d1, . . . , dk-i bázis (k-dimenziós térben 
dolgozunk). 

Most ezen vektorok mentén keressük az Az — b egyenlet zt megoldását. 
Haladjunk egymás után a d; bázis vektorok irányában úgy, hogy ezekben az 
irányokban később már ne kelljen lépni. Tehát az egymás utáni közelítések 


Ti1 — TT; Tt azd;. (6.37) 


Legyen xT — x;41.1 Aad;, és így a maradéknak már nem lesz d; irányú kompo- 
nense. Ehhez hogyan válasszuk a;-t? 
Tx— Xi41 — T— TT; —adi1 ad;, 
e 
He 
azaz 
—e. Ad; — azd) Ad; — 0, 


amiből (6.33) felhasználásával: 





dir; 
ÖEZÉT (6.38) 














Most a konjugált gradiens módszer algoritmusát fogjuk levezetni. A kon- 
jugált irányokat és a gradiens módszert kell egyszerre alkalmazni. 


6.3. Optimalizációs technikák 165 





A célunk tehát az Az — b lineáris egyenletrendszer zt megoldásának 
meghatározása. Az Yo, f1, . . . vektorokkal közelítjük x-et. 

Az e; — x; — x vektor a közelítés hibája, r; — b— Ax; — — Ae; pedig a 
reziduál. 

A reziduálokból kell meghatároznunk a dog, d, . . . , de-1 A-konjugált bá- 
zist, valamint az zt megoldást. Ezt az alábbi módon valósítjuk meg. 


— Legyen xo adott kezdeti közelítés. Ekkor rag — —Aeg — —A(r9 — Tr) — 
— — Axg 1 b számolható. 


— Ha ro — 0, akkor T — 29 és az algoritmus ezzel véget ér. 

Ha ro A 0, akkor legyen do — ro. 

Indukcióval haladunk. Tegyük fel, hogy eljutottunk az i-edik lépésig. 
Ez azt jelenti, hogy megvan az go, 1, . . . , cz közelítése r-nek, meg- 
vannak az Tro,...,Ti—-1 reziduálok (rj — b— Ax; — A(z — xrj) — 
— —Aej, j — 0,1,...,i— 1), valamint megvan az ro, . . . , rs1-ből 
A-ortogonalizálással képzett do, . . . , dj-1 vektor rendszer is. Az Ti 
vektorokat pedig úgy képeztük, hogy mindig hozzávettük €x;. 1-hez 
az aktuális d;. 1 irányú komponenst. Azaz az ez hiba már nem tar- 


talmaz do, . . . , dj-1 irányú komponenst, pontosabban szólva, ezekre 
A-ortogonális. Ebből tehát 

rjdi——ej4Adi-—0, ha 0£1£j-—-1. (6.39) 
Azaz rj1do, ..., dj-1. Mivel a do, . . . , dj-1 és az To, . . . , rj-1 vektor- 


rendszerek által generált alterek azonosak, ebből következik: 
TjÁAro,...,Tj—1- (6.40) 


— Azaz, ha már a da, . . . , d:-1 vektorok megvannak, akkor x; is megvan 
(6.37) alapján, továbbá r; — — Ae; — — Ax; -- b is kiszámolható. 
Ha r; — 0, akkor x — a;, és az algoritmus ezzel véget ér. 
Ha r; A 0, akkor a következő indukciós lépést tesszük. 
(6.39) alapján tudjuk, hogy r; független a do, da, . . . , di 1 vektoroktól, 
tehát csak A-ortogonalizálnunk kell ezekre. Keressük d;-t a 
i—1 
d.—-Tri4 Y Badi (6.41) 


1-0 


alakban. Alkalmazzuk erre az egyenletre a belső szorzást dj A-val a 
j Ci esetben. Azt kapjuk, hogy 


ez ag Ti —gi r 
0 — d; Ad; — d; Ar; - Bijdj Adj, 


166 


6. fejezet. Appendix 








mivel a do, . . . , di-1 vektorok A-konjugáltak. Innen 
B SSE aza zás (6.42) 
ij — ——T j —0,...,7— 1. ű 
17 dradp 7 


Most a j -- 1-edik reziduál az ejji1 — €j41— T — rjtajdj—T — 
— ajdj -- ej egyenlőség miatt: 
Tj--1 — —Áej41 7 — A(e; Hu ajd;) —-Tj— ajAd;. 
Ezt szorozva. r/-tal: 
i 


úx — p!p. :r! Ad. 
T;Tj41—T;Tj—ajr; Ad; 


ahonnan 





i 


] sz 
Tr; Ad; — ze [68Ae —T; rja) : (6.43) 
j 


A (6.40) képlet alapján r; a kisebb indexű r-ekre merőleges. Tehát 
(6.42) és (6.43) alapján 8;zj — 0, ha j — 0, 1, . . . , i — 2. 
Továbbá j — i— 1 esetén a (6.42) és a (6.43) egyenletekből 


e 1 TIT; 
aj d/ Ad, 





Bij 


De a (6.38) egyenlet miatt aj — dí rj/dj Ad;. Végül a fentiekből 
j —1i—1 esetén kapjuk, hogy B;;-i — ri r/dí ari, amiből (6.41) 
felhasználásával, valamint abból, hogy az r-ek ortogonálisak, és a d-kel 
azonos alteret feszítenek ki, adódik: 





5. 
TT; 

Bii-1—- —7—— ll (6.44) 
TT; 1Ti—1 











A (6.44) képletet Fletcher-Reeves-formulának nevezik. 


Ezt az eljárást addig folytatjuk, amíg a reziduál 0 nem lesz, azaz amíg 
meg nem találjuk a minimumot. 


A konjugált gradiens módszer alkalmazása többrétegű perceptron- 


ra 


Az átlagos hiba w(n) körüli Taylor-sora: 


€(w(n) 4 Aw(n)) — 
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— €(w(n)) 4 g(w(n)) " Aw(n) x- 5 Aw(n)T H(w(n))w(n) PF. 


ahol g(w) a gradiens vektor, H(w) pedig a Hesse-mátrix. A gradiens mód- 
szer esetén a súly korrekciója a negatív gradiens irányába történik: 


Aw(n) — w(n 4 1) — w(n) — —ng(w(n)). 


Viszont a konjugált gradiens módszer alkalmazható, hiszen a fenti Taylor-sor 
alapján közelítőleg egy 


f(x) — 571 Az —b!Im-kc 


alakú kvadratikus formát kell minimalizálni. Tehát úgy fogunk eljárni, hogy 
a gradienst a korábban megismert error back-propagation eljárással kiszá- 
mítjuk, de azt a konjugált gradiens módszer alapján úgy módosítjuk, mintha 
a közelítő kvadratikus forma minimumát keresnénk. 

Jelölje tehát s(0), s(1), . . . , sín — 1) azokat az irányokat, amikben már 
léptünk. A rekurzív eljárás az alábbi. 

1. Inicializálás. Legyen w(0) a kezdeti súlyvektor. Alkalmazzuk ebben a 
pontban a back-propagation eljárást a g(0) gradiens kiszámítására ugyanúgy, 
ahogyan korábban megismertük. Legyen 


s(0) — r(0) — —g(0) 


a negatív gradiens, tehát az az irány, amerre w(0)-at változtatjuk. 
2. Lépés n—1-ről n-re. Ha az s(0), . . . , $(n—1) irányok már megvannak, 
akkor megvan a w(n — 1) súlyvektor is. Keressük az új súlyvektort 


w(n) — wln— 1) -n(n— 1)s(n— 1) 





alakban. Úgy határozzuk meg )(n — 1)-et, hogy £(w(n)) minimális legyen. 
(Ez ún. direkt keresés, azaz egy egyenes mentén való keresés, ami numeri- 
kusan megoldható.) 

Ezután a w(n) pontban back-propagation algoritmussal keressük meg £ 
gradiensét, azaz g(n)-et. Legyen r(n) — —g(n). Ha IIr(mII £ őllr(0)II. ahol 
ó 5 0 előre adott kis szám, akkor megállunk. Ellenkező esetben folytatjuk. 
Viszont a következő lépés nem a —g(n) negatív gradiens irányába történik, 
hanem a konjugált gradiens módszer szerint az 


s(n) — r(n) 4 B(n)s(n — 1) 
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irányba, ahol (a Fletcher-Reeves-formula szerint) 


rím r(n) 
r(ín—1)!r(n—1) 








B(n) — 


Ezután n-et 1-gyel megnöveljük, és visszatérünk a 2. lépés elejéhez. 
Megjegyezzük, hogy a Fletcher-Reeves-formula helyett használható a 
Polak-Ribiére-formula, is, ami szerint 


r(n)" (r(n) —r(n— 1) 
r(ín—1)!r(ín—1) " 





B(m) — 


6.4. Feltételes szélsőérték problémák 


Feltételes szélsőérték problémák megoldásakor igen hasznos segédeszköz a 
Kuhn-Tucker-féle tétel, más néven a Karush-Kuhn-Tucker-féle tétel, lásd 
123] és [26]. A tétel számos változata közül itt a Boyd és Vandenberghe [2] 
könyvében lévő alakot ismertetjük (lásd még [1]). 

Legyenek fr(x), k — 0, . . . , m, d-változós, valós értékű függvények. Fel- 
tesszük, hogy ezen függvények értelmezési tartományainak D metszete nem 
üres. 

Az elsődleges optimalizálási probléma (primal problem) az alábbi: 


minimalizáljuk az folxr) függvényt 
az fr(r) C0, k—1,...,m, feltételek mellett. 


Jelölje p" az optimális értéket, azaz a feltételek teljesülése esetén fo(x) infi- 
mumát. Legyen 


L — L(x,X) — folm) x bök Ak fk(), 
k—1 


a Lagrange-függvény, ahol A — (21, . . . , Am) a Lagrange-féle multiplikátorok. 
Legyen 
9(A) — inf L(z, A) 


a Lagrange-féle duális függvény. Könnyű látni, hogy g mindig konkáv. Illet- 
ve, hogy tetszőleges A 2 0 esetén g(A) £ p". Ebből az egyenlőtlenségből 
származó legjobb alsó becslést szeretnénk elérni. Ez vezet az alábbi optima- 
lizálási feladatra. 
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A duális optimalizálási probléma (Lagrange dual problem) az alábbi: 


Maximalizáljuk a g(A) függvényt 
a A;20, i—1,...,m, feltételek mellett. 


Jelölje d" az optimális értéket, azaz a feltételek teljesülése esetén g(A) szup- 
rémumát. Az előzőek alapján d" £ p". A p" — d" 2 0 mennyiséget optimális 
dualitási résnek nevezzük (optimal duality gap). 

A következő két tételben tegyük fel, hogy az fk(x), k — 0, . . . , m, függ- 
vények differenciálhatóak. Ekkor ezen függvények értelmezési tartományai 
nyíltak, azaz D nyílt halmaz. 


6.18. Tétel. Legyen x" az elsődleges optimalizálási probléma, optimális meg- 
oldása, A" — (AT, ..., Am) pedig a duális optimalizálási probléma optimális 
megoldása, és tegyük fel, hogy a dualitási rés nulla. Ekkor teljesülnek a Kuhn— 
Tucker-feltételek, azaz 


felm) 20, SZÍ zkő 
AM 2 0, k-1,...,m, 
kfk(z) — 0, k:z 9... ,M, 





dfo(a?) Cs s dfx(z?) 
da HA dx zr 


Bizonyítás. A négy feltétel közül az első kettő nyilvánvaló. Az egyes mennyi- 


904) £ L(z, A £ fol) 


minden 2 és AZ 0 esetén. Így 
d" — g(A") c I(x,X") 2 fola). 


Innen 


d" — g(X") S Ela, X) S folm) —p. 


Mivel a dualitási rés nulla, így ebben az egyenlőltenségben végig egyenlőség 
áll. Így a tételbeli négy feltétel közül a harmadik közvetlenül adódik. Viszont 
az is látszik, hogy r" az L(x, A") függvény minimumhelye, azaz ott a derivált 
nulla, így adódik a negyedik feltétel. 














A fenti tétel tehát szükséges feltételt mond ki. Ezek a feltételek konvex 
függvények esetén elégségesek is. 
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6.19. Tétel. Legyenek az fr(x), k — O, . . .  m, függvények konvexzek. Tegyük 
fel, hogy az £ és a A1,..., Am pontok teljesítik a Kuhn-Tucker-feltételeket, 
azaz 





f.(£) 0, k—1,...,m, (6.45) 
kk 23 0, k—1,...,m, (6.46) 
Ax fk(£) — 0, k—1,...,m, (6.47) 
dfo(z) s: dfk(2) 

fek 2 Agg 0 (6.48) 


Ekkor £ az elsődleges optimalizálási probléma optimális megoldása, X — 
7 (1, Es sXz) pedig a duális optimalizálási probléma optimális megoldása, 
és a dualitási rés nulla. 

Bizonyítás. Az L(x,X) függvény x-ben konvex. Mivel a deriváltja £-ben 
eltűnik az utolsó Kuhn-Tucker-feltétel miatt, így ott minimuma van. Tehát 
a harmadik Kuhn-Iucker-feltételt felhasználva 


9(2) — L(£, A) — fol). 
Azaz £ és A nulla dualitási rést ad, így ezek primál, illetve duál optimális 
megoldások. 














Tegyük fel, hogy az fx(x), k — 0,..., m, függvények konvexek és diffe- 
renciálhatóak. Ekkor a, (6.45)—(6.48) Kuhn-Tucker-feltételek szükségesek és 
elegendők az optimalitáshoz, azaz ahhoz, hogy £ az elsődleges optimalizálási 
probléma optimális megoldása, A — (Az, . . . , Am) pedig a duális optimalizá- 
lási probléma optimális megoldása legyen nulla dualitási réssel. 

A Slater-feltétel azt jelenti, hogy létezik zt pont a D halmaz belsejében 
úgy, hogy f(x) c 0, i— 1,..., m (tehát szigorú egyenlőtlenség teljesül). 

Ismeretes, hogy amikor az fo, fi, . . . , Ífn függvények konvexek, akkor a 
Slater-feltétel garantálja, hogy a dualitási rés 0 legyen. Tehát, ha olyan eset- 
ben alkalmazzuk a 6.19. Tételt, amikor a Slater-feltétel teljesül, akkor ga- 
rantált a (6.45)-(6.48) feltételek teljesülése valamely (£, A) pontra. Tehát 
csak ezen (£, A) pont (numerikus) meghatározása a feladat. 

Az optimális megoldás keresése megegyezik az (2, A nyeregpont keresé- 
sével: ői ji 

min L(z, A) — L(£, A) — HSZ: 
Pontosabban szólva (£, A akkor és csak akkor nyeregpontja L-nek, ha £ 
primál, A pedig duális optimális pont 0 dualitási réssel. A részleteket lásd 
Boyd és Vandenberghe [2] könyvében. 
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6.5. Feladatok 


1. 


2. 


Igazoljuk, hogy az A! A mátrix szorzat felbomlik diádösszegre! 


Igazoljuk a Woodbury-egyenlőség általános alakját! Legyenek A, B, C1, 
C3 és D alkalmas méretű mátrixok. Ha 


A — B 4 C1DC) , 


akkor 





A-T! — B! — B-1C1(D7! 4 Cs BC) CI BI. 


Ennek speciális esete a Sherman-Morrison-formula, amikor D — 1. 


. A Woodbury-egyenlőség felhasználásával vezessük le a (6.21) egyenlőség- 


ből a (6.22) egyenlőséget! Hasonló módon vezessük le a (6.19) egyenlő- 
ségből a (6.20) egyenlőséget! 


. Igazoljuk, hogy a Gauss-Newton-módszer megkapható a Newton-mód- 


szerből, ha a Hesse-mátrixra a H s J!J közelítést alkalmazzuk, a gar- 
diens vektor pedig g — JT! e. 


. Igazoljuk a (6.30) és a (6.31) képletekben szereplő konvergenciákat! 


. Írjunk programot a gradiens, a konjugált gradiens, a kvázi Newton- 


(BFGS) és a Levenberg-Marguardt-módszerre! 


. Ábrázoljuk az 


f(x, 2) — 100(x2 — 39)? - (1 — 21)? 


ún. Rosenbrock-függvényt! Állapítsuk meg, hogy ennek abszolút mini- 
muma van az (21, x2) — (1, 1) pontban! 


. Alkalmazzuk a minimalizáló eljárásokat kétváltozós függvényekre! Kezd- 


jük ,egyszerű" alakú függvényekkel, majd folytassuk a Rosenbrock-függ- 
vénnyel! Ábrázoljuk a minimumot közelítő sorozatot a síkon! 


7. fejezet 


Feladatok megoldása, 
útmutatások 


2.7. Feladatok megoldása 


1. Szakaszonként lineáris aktivációs függvény: 


0, hag a —-l, 
p(ry— áz, ha —1C3cl, 
1, harzr2 1. 


Arcus tangens függvény: 
2 
p(r) — — arctan(T). 
TT 


Mindkét függvény teljesíti a lim, ,-os p(r) — —1 feltételt. A Cauchy- 
eloszlás eloszlásfüggvénye: 


1 1 
plz) — — arctan(T) ht —. 
(z) arctan(1) 5 


Ez a függvény a lim, ,- os p(r) — 0 feltételt teljesíti. Minden eloszlás- 
függvényből (azaz valószínűségi változó eloszlásfüggvényéből) készíthető 
aktivációs függvény; ezek teljesítik a lim; ,; oo p(r) — 0 feltételt, de át- 
alakíthatóak lim.. ,. os 9(x) — —1 feltételt teljesítő változattá is. Termé- 
szetesen a gyakorlatban csak néhány konkrét aktivációs függvényt hasz- 
nálnak. 
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2. Használjuk a perceptron betanításának leírását, azaz az alábbit. 


— Ha w(n) !" x(n) 5 0 és x(n) e Ai, vagy pedig ha w(n)! x(n) £ 0 és 
x(n) E Az, akkor 
w(n 1 1) — w(n). 


— Ha w(n)! xr(n) £ 0, de x(n) E Ai, akkor: 
w(n 4 1) — w(n) -- n(n) x(n). 
— Ha w(n)! x(n) 5 0, de x(n) € A2, akkor: 
w(nt1)— w(n) — nme). 


3. Illesszünk x! w -- b alakú (lineáris) függvényt az alábbi mért adatokra. 
Tegyük fel, hogy (x(1), d(1)), . . . , (r(N), d(N)) a megfigyeléseink, ahol 
d(i) — f(z(i)) a függvényérték. Ekkor a Least-Mean-Sguare algoritmus 
(más néven Widrow-Hoff algoritmus) az alábbi (lásd [10]). 


Legyen w :— 0; b : 0; m :5 0. 
repeat 
fori—ltoN 
(w! , b) — (w! ,b) 4 n(d(i) — (w"a(i) —- b)) (a(i) " 1) 
end for 
until konvergencia kritérium teljesül 
return w, b 


4. XOR esetén az igaz halmaza ((1,0),(0,1)), a hamisé ((1, 1), (0,0)). Ez 
a két halmaz nem szeparálható lineárisan a síkon. 


5. x € Ai esetén TT! wapt Tt bopt 5 0, azaz 
—bopt € zTwopt £ Ilelllkossill £ R, 
ahol használtuk a Cauchy-egyenlőtlenséget, valamint az IlrIl C R és 


a Ilwoptll — 1 feltételeket. Hasonlóan, gt € A2 választással, bont C R 
adódik. 
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3.6. Feladatok megoldása 


1. A tangens hiperbolikus függvény: 
2 








p(xr) — EZESÉST 1 — tanh(2). 
Ezért 4 ő 
; exp(—22 
JEE TEJBE ál ÉBE ú [/ 
Innen 


97 (wj(n)) — (1-7 ej(vj(n))) (1 — ez(vj(m))) — (1-4 9 (m)) (1 — 9j(n)). 
A ój(n) lokális gradiens a kimeneti rétegben: 


5 —— tg 7 eat tus tn). 





Sá 


A lokális gradiens rejtett rétegben: 


ój(n) — pj(vj(n)) pa öx(n)wrj(n). 


keíj utáni réteg) 


Tehát ebben az esetben a lokális gradiens számolásánál a j neuron Yyj 
outputja kell csupán (és a már korábban kiszámolt mennyiségek). 


2. A tételbeli approximáló függvényt egy rejtett rétegű perceptronnal lehet 
megvalósítani (lásd 7.1. ábra). Az input 91, . . . , tmo , míg ro — 1 a rejtett 
rétegbeni neuronokban a torzítás kezelésére szolgál. w;;j az i-edik neuron- 
hoz tartozó súly, amelyek közül w;o a torzítás. Minden rejtett neuronban 
p az aktivációs függvény. Az output rétegben egy neuron van, lineáris 
aktivációs függvénnyel, a; súlyokkal (amelyek közül ag a torzítás). 


3. A közelítendő f függvényt kell először a Stone- Weierstrass-tétel segítsé- 
gével approximálni. A részleteket lásd Luc Devroye, László Györfi, Gábor 
Lugosi [28], Theorem 30.4. 


4. Az XOR-problémát megoldó hálózat vázlata a 7.2. ábrán látható. Az in- 
put kétdimenziós. Az input rétegben a beérkező (1, x2) jel (0, 0), (0, 1), 
(1, 0), (1,1) lehet. Egy rejtett réteg van, két neuronnal. Az output ré- 
tegben egy neuron van. Mindhárom neuron transzfer függvénye a küszöb 
függvény: negatív számokhoz 0-t, nem-negatívokhoz 1-et rendel. 
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7.1. ábra. A függvényt approximáló MLP 
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7.2. ábra. Az XOR problémát megoldó MLP 








A rejtett rétegben minden súly legyen 1, azaz w11 — Ww12 — W21 — w22 

— 1. Neuron 1 torzítása legyen bi — —3/2. Ekkor Neuron 1 outputja 
akkor 1, ha 2 2 —x1 4 3/2. Neuron 2 torzítása legyen bb — —1/2. Ekkor 
Neuron 2 outputja akkor 1, ha 2 2 —x1 -- 1/2. 
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Az output neuron (azaz Neuron 3) súlyai legyenek: w3z1 — —2, w32 — 1, 
torzítása pedig: bj — —1/2. Ez a hálózat helyesen osztályozza a négy 
pontot. Valójában ez a hálózat a sík pontjait is osztályozza, egy sávhoz 
rendeli az 1 értéket, a többi síkbeli ponthoz 0-át. Lásd Haykin [18]. 


5. Használjunk programcsomagot! A Matlab és az R erre alkalmasak. Jár- 
junk el hasonlóan, mint a kidolgozott példákban! 


6. Használjunk programcsomagot! A Matlab és az R erre alkalmasak. Jár- 
junk el hasonlóan, mint a kidolgozott példában! 


7. Három halmaz szétválasztása MLP segítségével megvalósítható. Legyen 
mindhárom halmaz 100 elemű minta kétdimenziós, 


0.6 0 
0 0.6 
szórásmátrixú normális eloszlásból. De az első halmazban (0,0)! a vár- 


ható érték vektor, a második halmazban pedig (2,2)" a várható érték 
vektor, míg a harmadikban (0,2)". A 7.3. és 7.4. ábrákon x jelöli az 


6- 











7.3. ábra. Három normális eloszlás szeparálása MLP- 
vel: túlillesztett hálózat, rosszul általánosít 


első, x pedig a második halmaz elemeit, míg o a harmadikét. A meg- 
konstruált elválasztó görbék jelentősen különböznek. A 7.3. ábrán 3 rej- 
tett rétegű MLP szeparálása látható. Az első rejtett rétegben 4 neuron 
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7.4. ábra. Három normális eloszlás szeparálása MLP- 
vel: megfelelő számú neuron, jól általánosít 


van logisztikus, a másodikban 8 neuron tangens hiperbolikus, a harma- 
dikban pedig 4 neuron tangens hiperbolikus transzfer függvénnyel. A 
kimeneti rétegben 3 neuron van logisztikus transzfer függvénnyel. A ta- 
nítás Levenberg-Marguardt back-propagation eljárással történt. Az elvá- 
lasztó görbe a tanító pontokat viszonylag helyesen szeparálja, azonban 
rosszul általánosít, nagyon , bonyolult" az elválasztás. Ennek oka a bo- 
nyolult hálózat és a túlillesztés. A 7.4. ábrán lévő szeparálás azért sokkal 
jobb, mert ugyan az aktuális tanító pontokat nem tökéletesen osztja há- 
romfelé, azonban jól általánosít. Ezt az eredményt két rejtett réteggel, 
azokban 5, ill. 3 neuronnal értük el. Az első rétegben logisztikus, a máso- 
dikban tangens hiperbolikus transzfer függvényt használunk. A kimeneti 
rétegben 3 neuron található logisztikus transzfer függvénnyel. A tanítás 
Levenberg-Marguardt back-propagation eljárással történt. 


4.7. Feladatok megoldása 


1. Az F(x) — sgedő wjp(Ilx — xjll) alakú függvény, azaz az RBF-interpo- 
láció a 7.5. ábrán látható hálózattal valósítható meg. 
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7.5. ábra. Az RBF-interpolációt megvalósító hálózat 


2. A két feladat és megoldása Kabanikhin [22] cikkéből származik. 


(a) Be kell látnunk, hogy az alábbi egy rosszul felállított probléma. Le- 
gyen 9(x) — f(x) és tegyük fel, hogy f(r)-et csak egy kis perturbációval 
ismerjük: fn(x) — f(a) — sin(na) /vn. 

Ekkor fan — f teljesül supremum normában, hiszen fn(r) — f(x) — 
— sin(nr)/v/n nullához tart egyenletesen, ha n 5 co. Azonban az fn 
deriváltja gn(r) — a(z) 4 Vn cos(nx), aminek az eltérése g-tól Ilgn( . ) — 
— g(.)II— vnil cos(n .)II 7 co, han — oo. Itt Í/.I] a supremum normát 
jelöli. 

(b) Be kell látnunk, hogy rosszul felállított probléma a Laplace-féle dif- 
ferenciálegyenletre vonatkozó Cauchy-probléma. Legyen u(x, y) a követ- 
kező feladat megoldása: 


V9u- 0, 
u(0,y) — f(y), 
du(0,y) — 
Ez 0. 


Itt V2u — e -k erei a Laplace-operátor. Legyen f(y) — 2 sin(ny). Be- 
látjuk, hogy a fenti probléma megoldása 


1 AR 
u(z,y) — 7 sin(ny) 5 
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Ugyanis 

duly) ll. ne"? — ne-"? 

—g. 7 nim(ny—a— 

097u(myy) 1. ne? 4 n?e"T 

MET NBLE a 2 i 

duly)  n e"z per" 

02u(z, y) n2 j ert hp e-nI 
92 le sin(ny — 5 


Így belátható, hogy az adott u függvény megoldása a fenti problémának. 
Minden x 5 0 esetén, n-et elég nagynak választhatjuk ahhoz, hogy f 
tetszőlegesen kicsi, míg u tetszőlegesen nagy legyen. 


3. trAB — pass 2 aijbji -trBA. 


rX2 Tr 
p(r) — C) log C) 
fej d 
thin-plate-spline függvény grafikonja c — 1 paraméter esetén a 7.6. ábrán 
látható. 


4. A 

















0 0.5 1 1.5 2 2.5 3 


7.6. ábra. A thin-plate-spline függvény 


5. A megoldás Haykin [18] alapján. Az XOR-problémát megoldó RBF há- 
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Rögzített input — --1 





Y b (torzítás) 
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Input Lineáris 
csomó- Gauss- output 
pontok függvények neuron 


7.T. ábra. Az XOR problémát megoldó RBF 


lózat vázlata a 7.7. ábrán látható. Az input kétdimenziós. Az input ré- 
tegben a beérkező (ri, xr2) jel (0, 0), (0, 1), (1, 0), (1,1) lehet. Egy rejtett 
réteg van, két neuronnal. Az output rétegben egy neuron van. 


Tehát az XOR esetén az xj, dj tanító pontok: 





i 1 2 3 4 
xi (1.1) (0,1) (0.0) (1.0) 
di 0 1 0 1 











Legyen a bázis függvény Gauss-féle: 
G(Ila — ti) — exp(- Ila — tl[9), 


ahol a középpontok: ti — (1,1)!, ta — (0,0)". Olyan 


2 
v(m) — 9) wG(Ila — till) 4 b 
i—1 


alakú függvényt kell konstruálni, ami a tanító pontok esetén a megfelelő 
outputot adja, azaz 

y(zj)—dj, . J—1234. 
Mivel a G(Ilz; — t:II) értékek kiszámolhatóak, így az alábbit kapjuk 


w -- 0.1353wT1b—-0 
0.3678w -- 0.3678w-7-b—- 1 
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0.1353w4 -- wTtb-0 
0.3678w -- 0.3678w -- b — 1. 





Ez egy túlhatározott egyenletrendszer, ennek a legkisebb négyzetek elve 
szerinti legjobb megoldása: w — —2.5018, b — 2.8404. Tehát a hálózat: 


2 
y(r) — —2.5018 d" G(Ilz — t:II) — 2.8404. 
1-1 


6. Használjunk programcsomagot! Járjunk el hasonlóan, mint a kidolgozott 
példákban! 


7. Használjunk programcsomagot! Járjunk el hasonlóan, mint a kidolgozott 
példákban! 


8. Használjunk programcsomagot! Járjunk el hasonlóan, mint a kidolgozott 
példákban! 











7.8. ábra. Három normális eloszlás szeparálása RBF-fel 
Három halmaz szétválasztása RBF-fel. Legyen mindhárom halmaz 100 


0.6 0 
0 0.6 


szórásmátrixú normális eloszlásból. Az első halmazban (0,0)" a várható 
érték vektor, a második halmazban pedig (2,2)" a várható érték vektor, 
míg a harmadikban (0, 2) . 


elemű minta kétdimenziós, 
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7.9. ábra. Három normális eloszlás szeparálása MLP-vel 


A 7.8. és T.9. ábrákon x jelöli az első, x pedig a második halmaz ele- 
meit, míg o a harmadikét. A megkonstruált elválasztó görbék jelentősen 
különböznek. A 7.8. ábrán az RBF szeparálása látható. Gauss-féle bázis 
függvény használunk az RBF-ben. Az elválasztó görbe a tanító pontokat 
viszonylag helyesen szeparálja. A 7.9. ábrán lévő szeparálás ugyanarra 
az adathalmazra vonatkozik, mint az előző, csak összehasonlításképpen 
MLP-vel végeztük. Három rejtett réteg, azokban 3, 9, ill. 3 neuron van, 
mindben tangens hiperbolikus transzfer függvényt használunk. A kime- 
neti rétegben 1 neuron található lineáris transzfer függvénnyel. A tanítás 
Levenberg-Marguardt back-propagation eljárással történt. 


5.5. Feladatok megoldása 


1. Ha aus nincs a vágási határon, akkor az £ 0 és ai A C. Így a Kuhn- 
Tucker-feltétel (5.45) miatt f(xi1) — yi, azaz faj(mi) — yi kell legyen. 
Mivel az f(x1) — 2, waiK(mxi1, xz) 1 b képletben most csak az a1-hez 
és a2-höz tartozó tagok és b változhatnak, ezért a fixen maradó részek 
egyenlőségét felírva adódik (5.54), azaz 


b — — frggi(a1)-y1— ya (af — at) Kun —yala— az) Ki2-Hbrési, (7.1) 


Ha a? nincs a vágási határon, akkor az előző gondolatot a2-re alkalmazva 
a Kuhn-Tucker-feltétel miatt faj(z2) — y2 kell legyen, amiből adódik 
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(5.55), azaz 
b — — frggi(a2) 42 — yi (a? — a 8) K21—y2(a2— az 9) Ko2-bési, (7.2) 


Ha sem au, sem aa nincs a vágási határon akkor a két fenti bí érték egy- 
beesik. Ugyanis ekkor (5.52) vágás nélkül és (5.53) alkalmazható. Ezeket 
beírva a (7.1) és a (7.2) képletekbe, kapjuk, hogy bí két értéke egybeesik. 
Ha mind a1, mind aaz a vágási határon van, akkor legyen b új értéke a 


fenti két bí számtani közepe. 


2. A 7.10. ábra (a) részén a négyzetes €-inszenzitív veszteségfüggvény lát- 
ható, míg a (b) részén a Huber-féle veszteségfüggvény. Az € és a c értékét 
egyformának választottuk. 


(a) (b) 











t 0 t 1 
-£ 0 € -e 0 c 





7.10. ábra. (a) négyzetes €-inszenzitív veszteségfügg- 
vény, (b) Huber-féle veszteségfüggvény 


3. A 7.11. ábra (a) részén a lineáris c-inszenzitív veszteségfüggvény látható; 
a (b) részén a lineáris és a négyzetes €-inszenzitív veszteségfüggvény; a 
(c) részén a lineáris €-inszenzitív és a Huber-féle veszteségfüggvény; a (d) 
részén pedig a négyzetes €-inszenzitív és a Huber-féle veszteségfüggvény. 
Az € és a c értékét egyformának választottuk. 


4. Négyzetes €-inszenzitív veszteségfüggvény. Minimalizáljuk a 


v— (b,x)—baerő, i—1,...,N, 
(b, r) tb—ySCetéG, i-1,...,N 
€;20, i—1,...,N, 

N 


$-50, i—l1,..., 
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(a) (b) 


linear 






linear 











iszátszzátaz Öszzllszű guadratic 



































7.11. ábra. A lineáris és a négyzetes e-inszenzitív veszte- 
ségfüggvények, valamint a Huber-féle veszteségfüggvény 


feltételek esetén a 


N 
C 1 
6 kt) — — 2 12 Éz 
(4.86) (ee 4 ) 4 zlb. b) 
célfüggvényt (lásd [49]). 

Ez az ismert konvex optimalizálási probléma, amire alkalmazhatjuk a 
Kuhn-Tucker-tételt. Vezessük be az az, a", B, Bf nem-negatív multipli- 
kátorokat. Ezekkel írjuk fel a Lagrange-függvény. Ezt ab, b, §;, €7 szerint 


minimalizálni kell. Az így kapott kvadratikus programozási feladat az 
alábbi. Maximalizálandó a 


N N 
W(a, a) — 2 vilag — 04) — )  si(ai 3 aj) — 
2-1 1-1 
NE s ÍE Has 
—-2 TD (ex — ap) (ag — ajta, z) a (a)? 5 Yen)? 
i,j—1 1-1 1-1 
függvény a 
N 
F(a— ag) —0 
1-1 
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feltételek mellett. 


Ennek megoldásával végül a regressziós hipersík a következő 


(a) — (at? — ap) (ai) 449. 


P(x) cdrsi— S, ha Irl5 e, 
59 a) e. 
317, ha Ir] £ c. 


Minimalizáljuk a 
N 


64. £.£)—-CY(F(E) -k F(E)) 5 b, a) 


1-1 


célfüggvényt az 


v— (br) —beé, i—1,...,N, 
(b, r)tb—wuS§, i17-—1,...,N, 
€;/20, i—1,...,N, 
€? 20, i—1,...,N. 


feltételek esetén ([49]). 


Ez az ismert konvex optimalizálási probléma, amire alkalmazhatjuk a 
Kuhn-Tucker-tételt. Vezessük be a nem-negatív multiplikátorokat. Ezek- 
kel írjuk fel a Lagrange-függvény. Ezt ab, b, €;, §7 szerint minimalizálni 
kell. Az így kapott kvadratikus programozási feladat az alábbi. 


Maximalizálandó a 


N 
W(a, a) — 9 vilag — ar) — 
i—1 


N N N 
1 kk k c e 
— 2 pa (az — af) (a — aj) (xi, 1) c Nagy Tr c 20? 
i,j—1 1-1 1-1 


függvény a 
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feltételek mellett. 
Ennek megoldásával végül a regressziós hipersík a következő 


N 
(wo, ax) 09 — 3 (ar — apa, zo) 0. 


1-1 


6. (a) Haladjunk részintervallumonként! (b) Mutassuk meg, hogy d — 1 ese- 
tén érvényes az állítás. Egy d-edfokú spline d — 1-edik deriváltja elsőfokú 
spline. A részleteket lásd [27]. 


7. Az adott pontokat összekötő töröttvonalat kapunk. 


8. A Ba függvény a [—0.5, 0.5] intervallumon egyenletes eloszlású valószí- 
nűségi változó sűrűségfüggvénye. Ennek 0 a várható értéke és 1/V12 
a szórása. Így a konvolúciós képlet miatt a Bg függvény d -- 1 számű, 
független, a [—0.5, 0.5] intervallumon egyenletes eloszlású valószínűségi 
változó összegének sűrűségfüggvénye. Ezen összeget jelölje €g41. Ennek 
standardizáltja €441/4 (d - 1)/12. Jelölje fg ezen standardizált sűrűség- 
függvényét. Ekkor a központi határeloszlás-tétel lokális alakja (lásd [13]) 
miatt Í 

s —a? /2 

HL E es kzeezál 
és a konvergencia r-ben egyenletes. A limesz a standard normális sű- 
rűségfüggvény. Azt tudjuk, hogy €441 sűrűségfüggvénye a Bg függvény. 


Másrészt viszont £441 sűrűségfüggvénye 4 / FT Ja ( / d). Ezekből és 
az előbbi limesz relációból adódik, hogy 





6 6u? 
lim B z 
Fessskál el lánél ÜTÉST E EVET exp Tej 
azaz (5.64). Bi és B3 grafikonja és a közelítő normális sűrűségfüggvény 


a 7.12. ábrán látható. 


9. Haladjunk indukcióval! d — 0-ra és d — 1-re (5.65) közvetlenül ellen- 
őrizhető. Tegyük fel (5.65) igaz voltát d-re. Számítsuk ki a Bg4y1-et a 
(e el 


Baya(u) — JJ Balu — t)Bo(t)dt konvolúciós képlettel úgy, hogy Bo a 
KÜ 
definíció szerinti, míg Bg az (5.65) szerinti, azaz 


ÉGE 5. szil A ") € 83 e. is 9 I (7.3) 


r—0 "tr 
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— B, 
I1- - - Gauss 




















üi -1 0 1 
5. 

- - - Gauss 
ki -1 0 1 


7.12. ábra. A Bd4 spline függvény és a közelítő Gauss- 
féle sűrűségfüggvény, d — 1, 3 


Kiderül, hogy a konvolúciós képletben 


f (e-t SZ -r) Bo(t) dt — 
2 A 


1 d42 d-1 1 d42 d--1 
zsét ÉSz 881 ; 
Tr [er 2 r) Tr [er 27 VT JA 





A kapott tagokat összegezve és a er) -k (d) 7 (7) képletet alkal- 
mazva adódik (5.65) d -- 1-re. 


10. Két halmaz szétválasztása SVM segítségével. Legyen 


2 415 3.5 —1 
úa we 2 j D2— S me. 

Legyen az egyik halmaz 200 elemű minta kétdimenziós, (0,0)! várható 
érték vektorú és D1 szórásmátrixú normális eloszlásból. A másik halmaz 
pedig szintén 200 elemű minta kétdimenziós, (2, 2)" várható érték vekto- 
rú és D2 szórásmátrixú normális eloszlásból. Ez a két halmaz nem szepa- 
rálható lineárisan, így a lineáris magfüggvényű SVM mindig helytelenül 
szeparálta őket. Az ábrákon x jelöli az első, o pedig a második halmaz 
elemeit. A megkonstruált elválasztó görbék különböznek. A 7.13. ábrán 
kvadratikus magfüggvényű és SMO-val betanított SVM szeparálása, sze- 
repel. A 7.14. ábrán pedig harmadfokú (polinom) magfüggvényű és SMO 
módszerrel betanított SVM szeparálása. 
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guadratic SVM 


-2t 








-4 
-4 





7.13. ábra. Két normális eloszlás szeparálása kvadrati- 
kus SVM-mel 


cubic SVM 


40 





-4 
-4 








7.14. ábra. Két normális eloszlás szeparálása harmad- 
fokú SVM-mel 


A 7.15. ábrán Gauss-féle radiális bázis függvény magfüggvényű és SMO- 
val betanított SVM szeparálása látható. A 7.16. ábrán MLP magfügg- 
vényű (pontosabban szólva tangens hiperbolikus függvényt használó) és 
SMO módszerrel betanított SVM szeparálása szerepel. 


Számos futás tapasztalata: a kvadratikus és a harmadfokú polinom, vala- 
mint az RBF magfüggvény esetén az SVM ezt a szeparálást szinte mindig 
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jól oldja meg, MLP magfüggvény esetén viszont a megoldás nem kielégítő 
(sőt gyakran igen rossz). 


RBF SVM 








-4 
-4 





7.15. ábra. Két normális eloszlás szeparálása RBF 
S5VM-mel 


MLP SVM 





-4 








7.16. ábra. Két normális eloszlás szeparálása MLP 
SVM-mel 


11. Az előző feladatban generált két mintát hagyományos RBF-fel és MLP- 
vel is szeparáltuk. A 7.17. ábrán Gauss-féle magfüggvényű RBF szepa- 
rálása látható. A 7.18. ábrán az MLP szeparálása szerepel. Az alkal- 
mazott többrétegű perceptronban 2 rejtett réteg volt, rétegenként 12, 
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-2t 





-4 
-4 








7.17. ábra. Két normális eloszlás szeparálása RBF-fel 


MLP1 


—-2t 





-4 
-4 








7.18. ábra. Két normális eloszlás szeparálása MLP-vel 


ill. 8 neuronnal, tangens hiperbolikus transzfer függvénnyel. A betanítás 
Levenberg-Marguardt-módszerrel történt. 


Számos futás tapasztalata: az RBF ezt a szeparálást szinte mindig jól 
oldja meg. Az MLP az esetek többségében jól szeparál, de néha nem tudja 
megoldani a feladatot. Más felépítésű MLP-vel is hasonló eredményre 
jutottunk. 


12. Használjunk programcsomagot! Járjunk el hasonlóan, mint a kidolgozott 
példákban! 
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13. Használjunk programcsomagot! Járjunk el hasonlóan, mint a kidolgozott 
példákban! 


6.5. Feladatok megoldása 
1. Az A! A mátrix i, k-adik eleme: 2 ajiajk, ahol azk az A mátrix jk-adik 


eleme. Most jelölje A sorvektorait (de oszlopként írva) ax, . . . , an. Ekkor 
ezek diádösszegének zi, k-adik eleme: 


sgt — sigjző 
y aja; kez y ajidjk. 
1 j 


Tehát igazoljuk, hogy az A! A mátrix szorzat felbomlik A saját sorvek- 
torainak diádösszegére! 


ik 


2. Legyenek A, B, C1, C2 és D alkalmas méretű mátrixok. Legyen 
A— B-T C1DC). 


Be kell látni, hogy 





A7! — B-1— B-1C1(D7! 4 C3 B-1C4)-1eg B71. 


Szorozzuk össze a fenti két egyenlőség jobb oldalait (és jelöljük a szorza- 
tot X-szel): 





hg [B 1 B-JC(D1 a elseje Ba [B 3 CDC"] gs 
— 1— B-1C(D-1a4c€!B-1cy1c! 4B-1eDpC!T — 
N—— /m—.€—m——]—u( 
B-1C(D-13C1TB-1C)-1D-1DpDcCT 
— B-1C(D7-!34c€c!B-71c)y1ce!B-JeDCeT. 





A második tagot azért bővítettük D7! D-vel, hogy össze tudjuk vonni a 
negyedik taggal: 


X —-1—B1C(D-14C€!B-1e)y-t(D-1acTB-1e)DCT! a B1CDCT. 
A második tagban két tényező egymás inverze, így 
X—-I-—-B7CDC! 4 B-JCDC! —I. 


Ezzel igazoltuk a Woodbury-egyenlőség általános alakját. Ennek speciális 
esete a Sherman-Morrison-formula, amikor D — 1. 
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3. Közvetlen számolás. 


4. Négyzetes hibafüggvény esetén a gradiens vektor g — J! e. A négyzetes 
hibafüggvény esetén a Hesse-mátrixra a H sz J!J közelítést alkalmaz- 
hatjuk. Ezeket a Newton-módszer 


w(n 41) — w(n) — [/(w(m)] g(w(n)) 
képletébe beírva kapjuk a Gauss-Newton-módszer képletét: 
w(n 4-1) — w(n) — (J(m" J(m))""J(m) " e(w(n)). 


5. A (6.30) és a (6.31) képletekben szereplő konvergenciákat a teljesen füg- 
getlen esetben megkaphatjuk a nagy számok erős törvényéből. Az ugyanis 
azt állítja, hogy független azonos eloszlású valószínűségi változók szám- 
tani közepe 1 valószínűséggel konvergál a közös várható értékhez. 


6. Lásd [14, 16, 40]. 


7. Az f(x, x2) — 100(x2—23)2--(1—11)? Rosenbrock-függvénynek abszolút 
minimuma van az (21, 12) — (1,1) pontban. Hiszen egyrészt ebben a 
pontban a függvény értéke 0, aminél kisebb értéket a függvény nem vesz 
fel. Másrészt, ha valahol a függvény érték 0, akkor ott (1 — x1)? — 0, 
amiből xi — 1. De ha a függvényérték 0, akkor ott (2 — Tf)? — 0, amiből 
ro — x — 1. Így (zi, x2) — (1,1) egyedüli abszolút minimumhely. A 
Rosenbrock-függvény grafikonja a 7.19. ábrán látható. 
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7.19. ábra. A Rosenbrock-függvény grafikonja 


8. Alkalmazzunk saját programot, vagy programcsomagot! 
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